三十九、Scrapy-redis框架分布式部署
【摘要】 @Author:Runsen
文章目录
scrapy-redis框架
分布式原理
分布式爬虫的实现
scrapy-redis框架的安装
部署scrapy-redis
运行slave
运行master
scrapy-redis框架
scrapy-redis
一个三方的基于redis的分布式爬虫框架,配合...
@Author:Runsen
scrapy-redis框架
scrapy-redis
一个三方的基于redis的分布式爬虫框架,配合scrapy使用,让爬虫具有了分布式爬取的功能。
github地址:https://github.com/darkrho/scrapy-redis
分布式原理
scrapy-redis实现分布式,其实从原理上来说很简单,这里为描述方便,我们把自己的核心服务器称为master,而把用于跑爬虫程序的机器称为slave
我们知道,采用scrapy框架抓取网页,我们需要首先给定它一些start_urls,爬虫首先访问start_urls里面的url,再根据我们的具体逻辑,对里面的元素、或者是其他的二级、三级页面
文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。
原文链接:maoli.blog.csdn.net/article/details/89441612
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)