- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python爬虫入门教程 75-100 celery分布式爬虫抓取豆瓣那些书

梦想橡皮擦发表于 2021/05/28 04:07:07 2021/05/28

【摘要】写在前面最近迷上了读书，先定个flag，每年阅读50本书。读书，那必然要读好书，好书哪里找，豆瓣少不了，但是要不断的翻网页，这个事情感觉不是爬虫程序员能干出来的，作为梦想橡皮擦这样子的大佬，自然也不能做这么基础的翻网页动作，所以，必须写爬虫程序。今天要爬取的核心为 https://book.douban.com/tag/?view=type&icn...

写在前面

最近迷上了读书，先定个flag，每年阅读50本书。

读书，那必然要读好书，好书哪里找，豆瓣少不了，但是要不断的翻网页，这个事情感觉不是爬虫程序员能干出来的，作为梦想橡皮擦这样子的大佬，自然也不能做这么基础的翻网页动作，所以，必须写爬虫程序。

今天要爬取的核心为 https://book.douban.com/tag/?view=type&icn=index-sorttags-all 里面涉及的所有标签

我将通过两篇文章来完成这个案例，第一篇当然是基本环境的构建和认识，只有做好这一步，后面的代码实现起来才会更加清晰。

这两篇博客核心用到的都是celery一个异步任务队列/作业队列，它是基于分布式消息传递的。

github地址：https://github.com/celery/celery

celery是什么？

celery是通过python语言实现的分布式队列服务，除了支持即时任务，还支持定时任务。

写到这里就不得不说明一下，这个库在真实的使用中存在不少的问题，而且国内使用的比较少（可能我见到听说的比较少），最多、最常见的就是用来做异步邮件，处理个定时任务。当然对于学习来说，尤其是学习分布式爬虫来说，还是非常有必要了解一下的。

对于celery的学习，首先要做的是知道它都在哪些场景下应用，

文章来源: dream.blog.csdn.net，作者：梦想橡皮擦，版权归原作者所有，如需转载，请联系作者。

原文链接：dream.blog.csdn.net/article/details/107387305

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python爬虫入门教程 75-100 celery分布式爬虫抓取豆瓣那些书

写在前面

celery是什么？

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python爬虫入门教程 75-100 celery分布式爬虫抓取豆瓣那些书

写在前面

celery是什么？

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品