- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python3 基于asyncio的新闻爬虫思路

红皮橘子发表于 2019/02/28 11:55:24 2019/02/28

【摘要】 Python写爬虫是非常方便的，爬取的目标不同，实现的方式也有很大不同。新闻爬虫的方便之处是，新闻网站几乎没有反爬虫策略，不好的地方是你想要爬取的新闻网站非常非常多。这个时候，效率就是你首要考虑的问题。

∟文章首发于我的个人博客：Python教程

∟作者：猿人学

Python写爬虫是非常方便的，爬取的目标不同，实现的方式也有很大不同。新闻爬虫的方便之处是，新闻网站几乎没有反爬虫策略，不好的地方是你想要爬取的新闻网站非常非常多。这个时候，效率就是你首要考虑的问题。
同步循环的效率在这里相形见绌，你需要的是异步IO实现一个高效率的爬虫。

Python3.5开始，加入了新的语法，async和await这两个关键字，asyncio也成了标准库，这对于我们写异步IO的程序来说就是如虎添翼，让我们轻而易举的实现一个定向抓取新闻的异步爬虫。

1. 异步爬虫依赖的模块

asyncio: 标准异步模块，实现python的异步机制；
uvloop：一个用C开发的异步循环模块，大大提高异步机制的效率；
aiohttp: 一个异步http请求的模块，用于下载网页；
urllib.parse: 解析url网站的模块；
logging: 记录爬虫日志；
leveldb: Google的Key-Value数据库，用以记录url的状态；
farmhash：对url进行hash计算作为url的唯一标识；
sanicdb: 对aiomysql的封装，更方便的进行数据库mysql操作；

2. 异步爬虫实现的流程

2.1 新闻源列表

本文要实现的异步爬虫是一个定向抓取新闻网站的爬虫，所以就需要管理一个定向源列表，这个源列表记录了很多我们想要抓取的新闻网站的url，这些url指向的网页叫做hub网页，它们有如下特点：

它们是网站首页、频道首页、最新列表等等；
它们包含非常多的新闻页面的链接；
它们经常被网站更新，以包含最新的新闻链接；
它们不是包含新闻内容的新闻页面；

Hub网页就是爬虫抓取的起点，爬虫从中提取新闻页面的链接再进行抓取。Hub网址可以保存在MySQL数据库中，运维可以随时添加、删除这个列表；爬虫定时读取这个列表来更新定向抓取的任务。这就需要爬虫中有一个循环来定时读取hub网址。

2.2 网址池

异步爬虫的所有流程不能单单用一个循环来完成，它是多个循环（至少两个）相互作用共同完成的。它们相互作用的桥梁就是“网址池”（用asyncio.Queue来实现）。

这个网址池就是我们比较熟悉的“生产者-消费者”模式。

一方面，hub网址隔段时间就要进入网址池，爬虫从网页提取到的新闻链接也有进入到网址池，这是生产网址的过程；

另一方面，爬虫要从网址池中取出网址进行下载，这个过程是消费过程；

两个过程相互配合，就有url不断的进进出出网址池。

2.3 数据库

这里面用到了两个数据库：MySQL和Leveldb。前者用于保存hub网址、下载的网页；后者用于存储所有url的状态（是否抓取成功）。

从网页提取到的很多链接可能已经被 zhua取过了，就不必再进行抓取，所以他们在进入网址池前就要被检查一下，通过leveldb可以快速查看其状态。

3. 异步爬虫的实现细节

前面的爬虫流程中提到两个循环：

循环一：定时更新hub网站列表

      async def loop_get_urls(self,):
          print('loop_get_urls() start')          
          while 1:              
          await self.get_urls() # 从MySQL读取hub列表并将hub url放入queue
              await asyncio.sleep(50)

循环二：抓取网页的循环

      async def loop_crawl(self,):          
      print('loop_crawl() start')
          last_rating_time = time.time()
          asyncio.ensure_future(self.loop_get_urls())
          counter = 0
          while 1:
              item = await self.queue.get()
              url, ishub = item              
              self._workers += 1
              counter += 1
              asyncio.ensure_future(self.process(url, ishub))

              span = time.time() - last_rating_time              
              if span > 3:
                  rate = counter / span                  
                  print('\tloop_crawl2() rate:%s, counter: %s, workers: %s' % (round(rate, 2), counter, self._workers))
                  last_rating_time = time.time()
                  counter = 0
              if self._workers > self.workers_max:                  
              print('====== got workers_max, sleep 3 sec to next worker =====')
                  await asyncio.sleep(3)

4. asyncio 要点：

读读asyncio的文档就可以知道它的运行流程，这里分享一下使用时注意到的地方。

（1）使用loop.run_until_complete(self.loop_crawl())来启动整个程序的主循环；

（2）使用asyncio.ensure_future() 来异步调用一个函数，它相当于多进程的fork，gevent的spawn()，具体可以参考上述代码。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python3 基于asyncio的新闻爬虫思路

1. 异步爬虫依赖的模块

2. 异步爬虫实现的流程

2.1 新闻源列表

2.2 网址池

2.3 数据库

3. 异步爬虫的实现细节

循环一：定时更新hub网站列表

循环二：抓取网页的循环

4. asyncio 要点：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python3 基于asyncio的新闻爬虫思路

1. 异步爬虫依赖的模块

2. 异步爬虫实现的流程

2.1 新闻源列表

2.2 网址池

2.3 数据库

3. 异步爬虫的实现细节

循环一：定时更新hub网站列表

循环二： 抓取网页的循环

4. asyncio 要点：

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

循环二：抓取网页的循环