项目根目录
$ scrapy startproject myproject
项目目录:包含整个Scrapy项目的根目录,通常由scrapy startproject命令创建。
scrapy.cfg 文件:Scrapy项目的配置文件,包含Scrapy的配置信息,如项目名称、部署设置等。
/myproject目录
spiders 目录:包含爬虫(Spider)的目录。每个爬虫通常由一个Python文件表示,其中定义了爬取和处理数据的规则。
items.py 文件:包含项目中定义的数据模型(Item)。Item是用于保存从网页中提取的数据的Python对象。
middlewares.py 文件:包含中间件(Middleware)的文件。中间件可以对请求和响应进行预处理和后处理,例如添加代理、设置用户代理等。
pipelines.py 文件:包含管道(Pipeline)的文件。管道用于处理爬取的数据,可以进行数据清洗、验证、存储等操作。
settings.py 文件:包含项目的设置信息。你可以在这个文件中设置爬虫的全局配置,如下载延迟、User-Agent等。
/myproject/spiders目录
$ cd myproject
$ scrapy genspider example example.com