《Python数据挖掘与机器学习实战》—2.9 爬虫框架介绍

举报
华章计算机 发表于 2019/06/17 13:17:25 2019/06/17
【摘要】 本节书摘来自华章计算机《Python数据挖掘与机器学习实战》一书中的第2章,第2.9.1节,作者是方巍 。

2.9  爬虫框架介绍

  目前常见的Python爬虫框架有很多,如Scrapy、XPath、Crawley、PySpide和Portia等。本节主要介绍Scrapy和XPath两种主流爬虫框架。

2.9.1  Scrapy介绍

  Scrapy是一套基于Twisted的异步处理框架,是纯Python实现的爬虫框架,用户只需要定制、开发几个模块就可以轻松实现一个爬虫程序,用来抓取网页内容或者图片。如图2-15所示为Scrapy的基本架构。

  这个架构中包含了Scheduler、Item Pipeline、Downloader、Spiders及Engine这几个组件模块,而图中的箭头线则说明了整套系统的数据处理流程。下面对这些组件进行简单的说明。

 image.png

图2-15  Scrapy架构

  1.Scrapy Engine(Scrapy引擎)

  Scrapy引擎是用来控制整个系统的数据处理流程,并进行事务处理的触发。

  2.Scheduler(调度)

  调度程序从Scrapy引擎接受请求并排序列入队列,并在Scrapy引擎发出请求后返还给它们。

  3.Downloader(下载器)

  下载器的主要职责是抓取网页并将网页内容返还给蜘蛛(Spiders)。

  4.Spiders(蜘蛛)

  蜘蛛是由Scrapy用户自己定义用来解析网页并抓取指定URL返回的内容的类,每个蜘蛛都能处理一个域名或一组域名。换句话说,Spiders就是用来定义特定网站的抓取和解析规则。

  蜘蛛的整个抓取流程(周期)是这样的:

  (1)获取第一个URL的初始请求,当请求返回后调取一个回调函数。第一个请求是通过调用start_requests()方法来实现。该方法默认从start_urls中的URL中生成请求,并执行解析来调用回调函数。

  (2)在回调函数中,可以解析网页响应并返回项目对象和请求对象或两者的迭代。这些请求也包含一个回调,然后被Scrapy下载,再由指定的回调处理。

  (3)在回调函数中,解析网站的内容,同程使用的是XPath选择器(也可以使用BeautifuSoup、lxml或其他程序),并生成解析的数据项。

  (4)从蜘蛛返回的项目通常会进驻到项目管道。

  5.Item Pipeline(项目管道)

  项目管道主要负责处理蜘蛛从网页中抽取的项目,它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到项目管道,并经过几个特定的次序处理数据。每个项目管道的组件都是由一个简单的方法组成的Python类。它们获取了项目管道并执行管道中的方法,同时还需要确定是在项目管道中继续执行还是直接丢掉不处理。

  项目管道通常执行的过程是:

  (1)清洗HTML数据。

  (2)验证解析到的数据(检查项目是否包含必要的字段)。

  (3)检查是否是重复数据(如果重复就删除)。

  (4)将解析到的数据存储到数据库中。

  6.Downloader Middlewares(下载器中间件)

  下载器中间件是位于Scrapy引擎和下载器之间的钩子框架,主要处理Scrapy引擎与下载器之间的请求及响应。它提供了一个自定义代码的方式来拓展Scrapy的功能。它是轻量级的,对Scrapy尽享全局控制的底层的系统。

  7.Spider Middlewares(蜘蛛中间件)

  蜘蛛中间件是介于Scrapy引擎和蜘蛛之间的钩子框架,主要工作是处理蜘蛛的响应输入和请求输出。它提供一个自定义代码的方式来拓展Scrapy的功能。蜘蛛中间件是一个挂接到Scrapy的蜘蛛处理机制的框架,可以插入自定义的代码来处理发送给蜘蛛的请求,以及返回蜘蛛获取的响应内容和项目。

  8.Scheduler Middlewares(调度中间件)

  为了进一步提高蜘蛛性能,有的蜘蛛在Scrapy引擎和调度中间件之间还可以加上调度中间件,主要工作是处理从Scrapy引擎发送到调度的请求和响应。它提供了一个自定义的代码来拓展Scrapy的功能。

  总之,Scrapy就是基于上述这些组件工作的,而Scrapy的整个数据处理流程由Scrapy引擎进行控制,其主要的运行过程为:

  (1)引擎打开一个域名,此时蜘蛛处理这个域名,并让蜘蛛获取第一个爬取的URL。

  (2)引擎从蜘蛛那里获取第一个需要爬取的URL,然后作为请求在调度中进行调度。

  (3)引擎从调度那获取接下来进行爬取的页面。

  (4) 调度将下一个爬取的URL返回给引擎,引擎将它们通过下载中间件发送到下载器中。

  (5)当网页被下载器下载完成以后,响应内容通过下载中间件被发送到引擎上。

  (6)引擎收到下载器的响应并将它通过蜘蛛中间件发送给蜘蛛进行处理。

  (7)蜘蛛处理响应并返回爬取到的项目,然后给引擎发送新的请求。

  (8)引擎将抓取到的项目发送给项目管道,并向调度发送请求。

  (9)系统重复第(2)步后面的操作,直到调度中没有请求,然后断开引擎与域之间的联系。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。