(5)分布式下的爬虫Scrapy应该如何做-关于爬虫的调度机制与调度架构的构想

举报
~大鱼~ 发表于 2021/05/26 22:56:58 2021/05/26
【摘要】 调度组件 scrapyd (pip 安装) tiktok (docker安装)– ==>源码安装<===点击跳转 环境:ubuntu14.04 分析 我们使用scrapyd作为爬虫的执行者,关于scrapyd部署爬虫,请参考文章爬虫应该怎么部署到ubuntu上,这样在每一台机器都留出了http的api接口,我们只需要使用一个定时任务就可以正常的轮询我们的爬虫...

调度组件

分析

我们使用scrapyd作为爬虫的执行者,关于scrapyd部署爬虫,请参考文章爬虫应该怎么部署到ubuntu上,这样在每一台机器都留出了http的api接口,我们只需要使用一个定时任务就可以正常的轮询我们的爬虫了,有人说使用crontab,其实也是可以的,只是这样不算太方便

使用

在确保tiktok安装好之后,我们直接新建一个任务,在任务的脚本里面写命令行
《(5)分布式下的爬虫Scrapy应该如何做-关于爬虫的调度机制与调度架构的构想》

以上的就是我们的scrapyd命令,然后我们选择时间,多长时间运行一次,因为tiktok本身的内置调度就是基于cron的表达式,不过我已经做好了插件
《(5)分布式下的爬虫Scrapy应该如何做-关于爬虫的调度机制与调度架构的构想》

如图选择好时间,然后点击保存,就可以正常的运行了

文章来源: brucedone.com,作者:大鱼的鱼塘,版权归原作者所有,如需转载,请联系作者。

原文链接:brucedone.com/archives/139

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。