项目根目录

$ scrapy startproject myproject

项目目录:包含整个Scrapy项目的根目录,通常由scrapy startproject命令创建。

scrapy.cfg 文件:Scrapy项目的配置文件,包含Scrapy的配置信息,如项目名称、部署设置等。

/myproject目录

spiders 目录:包含爬虫(Spider)的目录。每个爬虫通常由一个Python文件表示,其中定义了爬取和处理数据的规则。

items.py 文件:包含项目中定义的数据模型(Item)。Item是用于保存从网页中提取的数据的Python对象。

middlewares.py 文件:包含中间件(Middleware)的文件。中间件可以对请求和响应进行预处理和后处理,例如添加代理、设置用户代理等。

pipelines.py 文件:包含管道(Pipeline)的文件。管道用于处理爬取的数据,可以进行数据清洗、验证、存储等操作。

settings.py 文件:包含项目的设置信息。你可以在这个文件中设置爬虫的全局配置,如下载延迟、User-Agent等。

/myproject/spiders目录

$ cd myproject

$ scrapy genspider example example.com

作者 admin

百度广告效果展示