Scrapy 爬虫项目

1、安装Scrapy

使用pip来安装Scrapy:

$ pip install scrapy

2、创建Scrapy项目

使用命令行工具进去目录,使用以下命令创建一个新的Scrapy项目:

$ cd /d E:\ScrapyProject

$ scrapy startproject myproject

#这将创建一个名为myproject的新目录,其中包含Scrapy项目的基本结构

3、定义爬虫

在项目中创建一个新的爬虫,用于定义要爬取的网站和数据提取规则:

$ cd myproject

$ scrapy genspider example example.com

#这将在spiders目录中创建一个名为example.py的新爬虫文件,其中包含一个基本的示例爬虫。

4、运行爬虫
$ scrapy crawl example #运行爬虫

 

spiders文件夹的.py爬虫文件

name

每个项目唯一的名字,用来区分不同的 Spider

allowed_domains

是允许爬取的域名,如果初始或后续的请求链接不是这个域名下的,则请求链接会被过滤掉

start_urls

  • 包含了 Spider 在启动时爬取的 url 列表,初始请求是由它来定义的parseSpider 的一个方法。
  • 默认情况下,被调用时 start_urls 里面的链接构成的请求完成下载执行后,返回的响应就会作为唯一的参数传递给这个函数。
  • 该方法负责解析返回的响应、提取数据或者进一步生成要处理的请求。

pipelines.py

process_item()
  • item  :每次 Spider 生成的 Item 都会作为参数传递过来
  • spider:就是 Spider 的实例。该方法必须返回包含数据的字典或 Item 对象,或者抛出 DropItem 异常。

作者 admin

百度广告效果展示