- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《Python数据挖掘与机器学习实战》—2.9 爬虫框架介绍

华章计算机发表于 2019/06/17 13:17:25 2019/06/17

【摘要】本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第2章，第2.9.1节，作者是方巍。

2.9 爬虫框架介绍

　　目前常见的Python爬虫框架有很多，如Scrapy、XPath、Crawley、PySpide和Portia等。本节主要介绍Scrapy和XPath两种主流爬虫框架。

2.9.1 Scrapy介绍

　　Scrapy是一套基于Twisted的异步处理框架，是纯Python实现的爬虫框架，用户只需要定制、开发几个模块就可以轻松实现一个爬虫程序，用来抓取网页内容或者图片。如图2-15所示为Scrapy的基本架构。

　　这个架构中包含了Scheduler、Item Pipeline、Downloader、Spiders及Engine这几个组件模块，而图中的箭头线则说明了整套系统的数据处理流程。下面对这些组件进行简单的说明。

图2-15 Scrapy架构

　　1．Scrapy Engine（Scrapy引擎）

　　Scrapy引擎是用来控制整个系统的数据处理流程，并进行事务处理的触发。

　　2．Scheduler（调度）

　　调度程序从Scrapy引擎接受请求并排序列入队列，并在Scrapy引擎发出请求后返还给它们。

　　3．Downloader（下载器）

　　下载器的主要职责是抓取网页并将网页内容返还给蜘蛛（Spiders）。

　　4．Spiders（蜘蛛）

　　蜘蛛是由Scrapy用户自己定义用来解析网页并抓取指定URL返回的内容的类，每个蜘蛛都能处理一个域名或一组域名。换句话说，Spiders就是用来定义特定网站的抓取和解析规则。

　　蜘蛛的整个抓取流程（周期）是这样的：

　　（1）获取第一个URL的初始请求，当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法来实现。该方法默认从start_urls中的URL中生成请求，并执行解析来调用回调函数。

　　（2）在回调函数中，可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也包含一个回调，然后被Scrapy下载，再由指定的回调处理。

　　（3）在回调函数中，解析网站的内容，同程使用的是XPath选择器（也可以使用BeautifuSoup、lxml或其他程序），并生成解析的数据项。

　　（4）从蜘蛛返回的项目通常会进驻到项目管道。

　　5．Item Pipeline（项目管道）

　　项目管道主要负责处理蜘蛛从网页中抽取的项目，它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后，将被发送到项目管道，并经过几个特定的次序处理数据。每个项目管道的组件都是由一个简单的方法组成的Python类。它们获取了项目管道并执行管道中的方法，同时还需要确定是在项目管道中继续执行还是直接丢掉不处理。

　　项目管道通常执行的过程是：

　　（1）清洗HTML数据。

　　（2）验证解析到的数据（检查项目是否包含必要的字段）。

　　（3）检查是否是重复数据（如果重复就删除）。

　　（4）将解析到的数据存储到数据库中。

　　6．Downloader Middlewares（下载器中间件）

　　下载器中间件是位于Scrapy引擎和下载器之间的钩子框架，主要处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义代码的方式来拓展Scrapy的功能。它是轻量级的，对Scrapy尽享全局控制的底层的系统。

　　7．Spider Middlewares（蜘蛛中间件）

　　蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架，主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蜘蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架，可以插入自定义的代码来处理发送给蜘蛛的请求，以及返回蜘蛛获取的响应内容和项目。

　　8．Scheduler Middlewares（调度中间件）

　　为了进一步提高蜘蛛性能，有的蜘蛛在Scrapy引擎和调度中间件之间还可以加上调度中间件，主要工作是处理从Scrapy引擎发送到调度的请求和响应。它提供了一个自定义的代码来拓展Scrapy的功能。

　　总之，Scrapy就是基于上述这些组件工作的，而Scrapy的整个数据处理流程由Scrapy引擎进行控制，其主要的运行过程为：

　　（1）引擎打开一个域名，此时蜘蛛处理这个域名，并让蜘蛛获取第一个爬取的URL。

　　（2）引擎从蜘蛛那里获取第一个需要爬取的URL，然后作为请求在调度中进行调度。

　　（3）引擎从调度那获取接下来进行爬取的页面。

　　（4）调度将下一个爬取的URL返回给引擎，引擎将它们通过下载中间件发送到下载器中。

　　（5）当网页被下载器下载完成以后，响应内容通过下载中间件被发送到引擎上。

　　（6）引擎收到下载器的响应并将它通过蜘蛛中间件发送给蜘蛛进行处理。

　　（7）蜘蛛处理响应并返回爬取到的项目，然后给引擎发送新的请求。

　　（8）引擎将抓取到的项目发送给项目管道，并向调度发送请求。

　　（9）系统重复第（2）步后面的操作，直到调度中没有请求，然后断开引擎与域之间的联系。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《Python数据挖掘与机器学习实战》—2.9 爬虫框架介绍

2.9 爬虫框架介绍

2.9.1 Scrapy介绍

1．Scrapy Engine（Scrapy引擎）

2．Scheduler（调度）

3．Downloader（下载器）

4．Spiders（蜘蛛）

5．Item Pipeline（项目管道）

6．Downloader Middlewares（下载器中间件）

7．Spider Middlewares（蜘蛛中间件）

8．Scheduler Middlewares（调度中间件）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《Python数据挖掘与机器学习实战》—2.9 爬虫框架介绍

2.9 爬虫框架介绍

2.9.1 Scrapy介绍

1．Scrapy Engine（Scrapy引擎）

2．Scheduler（调度）

3．Downloader（下载器）

4．Spiders（蜘蛛）

5．Item Pipeline（项目管道）

6．Downloader Middlewares（下载器中间件）

7．Spider Middlewares（蜘蛛中间件）

8．Scheduler Middlewares（调度中间件）

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

　　1．Scrapy Engine（Scrapy引擎）

　　2．Scheduler（调度）

　　3．Downloader（下载器）

　　4．Spiders（蜘蛛）

　　5．Item Pipeline（项目管道）

　　6．Downloader Middlewares（下载器中间件）

　　7．Spider Middlewares（蜘蛛中间件）

　　8．Scheduler Middlewares（调度中间件）