Python爬虫入门教程 72-100 分布式爬虫初步解析-配好环境肝完一半

举报
梦想橡皮擦 发表于 2021/05/27 00:29:01 2021/05/27
【摘要】 写在前面 最近该系列的爬虫更新比较慢了,原因是实在写不动了,70多篇博客,每一篇都是一个案例,在写好多都不是篇博客可以容纳的了,而且爬虫的技术在70多篇中都有所涉及了,但是flag既然历下了,那么就必须要把它完成,接下来进入一些稍微稍微麻烦一点的内容,第一个咱就写分布式爬虫,这个其实核心就是提高爬取效率的,属于套路,而且是常见的讨论,走起。 为什么要用分布式 好问...

写在前面

最近该系列的爬虫更新比较慢了,原因是实在写不动了,70多篇博客,每一篇都是一个案例,在写好多都不是篇博客可以容纳的了,而且爬虫的技术在70多篇中都有所涉及了,但是flag既然历下了,那么就必须要把它完成,接下来进入一些稍微稍微麻烦一点的内容,第一个咱就写分布式爬虫,这个其实核心就是提高爬取效率的,属于套路,而且是常见的讨论,走起。

为什么要用分布式

好问题,其实大多数爬虫在编写的时候如果遇到效率问题,用多进程,协程就可以满足需求了,但是当一个爬虫类的项目上升到非常大的级别或者达到商用的目的,你需要同时抓取成千上万个网站,处理上亿的请求(有点夸张了),单个的爬虫非常难实现这样的需求,就需要大量的服务器进行同时分布抓取,所以你看到大多数分布式爬虫课程到最后都是在模拟一个搜索引擎,因为搜索引擎就是一个超级爬虫。

接下来的几篇博客,可能重点都会落在scrapy-redis这个框架或者叫做基于redis的一个组件上面,因为通过他,我们可以快速、简单的实现分布式爬虫程序

总结一句话,啥叫分布式爬虫,可以给一个不精准,但是好理解的定义

把爬虫部署在多台电脑主机上,并且互相之间还有通讯的一种爬虫技术

scrapy-redis

对于分布式爬虫,scrapy-redis 目前是应用最多的,并且是互联网相关教程说明最多的,原因也不用太深究,综合

文章来源: dream.blog.csdn.net,作者:梦想橡皮擦,版权归原作者所有,如需转载,请联系作者。

原文链接:dream.blog.csdn.net/article/details/107066454

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。