Python爬虫入门教程 75-100 celery分布式爬虫抓取豆瓣那些书

举报
梦想橡皮擦 发表于 2021/05/28 04:07:07 2021/05/28
【摘要】 写在前面 最近迷上了读书,先定个flag,每年阅读50本书。 读书,那必然要读好书,好书哪里找,豆瓣少不了,但是要不断的翻网页,这个事情感觉不是爬虫程序员能干出来的,作为梦想橡皮擦这样子的大佬,自然也不能做这么基础的翻网页动作,所以,必须写爬虫程序。 今天要爬取的核心为 https://book.douban.com/tag/?view=type&icn...

写在前面

最近迷上了读书,先定个flag,每年阅读50本书。

读书,那必然要读好书,好书哪里找,豆瓣少不了,但是要不断的翻网页,这个事情感觉不是爬虫程序员能干出来的,作为梦想橡皮擦这样子的大佬,自然也不能做这么基础的翻网页动作,所以,必须写爬虫程序。

今天要爬取的核心为 https://book.douban.com/tag/?view=type&icn=index-sorttags-all 里面涉及的所有标签

我将通过两篇文章来完成这个案例,第一篇当然是基本环境的构建和认识,只有做好这一步,后面的代码实现起来才会更加清晰。

这两篇博客核心用到的都是celery一个异步任务队列/作业队列,它是基于分布式消息传递的。

github地址:https://github.com/celery/celery

celery是什么?

celery是通过python语言实现的分布式队列服务,除了支持即时任务,还支持定时任务。

写到这里就不得不说明一下,这个库在真实的使用中存在不少的问题,而且国内使用的比较少(可能我见到听说的比较少),最多、最常见的就是用来做异步邮件,处理个定时任务。当然对于学习来说,尤其是学习分布式爬虫来说,还是非常有必要了解一下的。

对于celery的学习,首先要做的是知道它都在哪些场景下应用,

文章来源: dream.blog.csdn.net,作者:梦想橡皮擦,版权归原作者所有,如需转载,请联系作者。

原文链接:dream.blog.csdn.net/article/details/107387305

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。