基于scrapy可见可得的爬虫工具arachnado

举报
~大鱼~ 发表于 2021/05/28 04:03:19 2021/05/28
【摘要】 效果预览和项目所在 先上Git地址:https://github.com/TeamHG-Memex/arachnado 这个库在去年8月就已经上线了,作者写的东西和整体的UI界面满不错的, 这是从youtube下载下来后上传到youku的演示效果   整体的效果确实真的很不错,基于tornado 高效,封装了一些scrapyd webservice 的api,数据...

效果预览和项目所在

先上Git地址:https://github.com/TeamHG-Memex/arachnado

这个库在去年8月就已经上线了,作者写的东西和整体的UI界面满不错的,

这是从youtube下载下来后上传到youku的演示效果

 

整体的效果确实真的很不错,基于tornado 高效,封装了一些scrapyd webservice 的api,数据都是保存在mongo之中的,可以自己自由定制,不过可惜的是,目前只能通过修改spider里面的代码来个性爬虫的整体逻辑,不过代码逻辑不复杂,可以学习自己封装一些api .

关于定制spider ,是否任何网站都可以爬取

https://github.com/TeamHG-Memex/arachnado/blob/master/arachnado/spider.py

其实是将数据一些常见的链接抓出来了,并没有对特定的数据进行处理

数据如何处理

数据都是经过piepline来处理的,可以查看代码
https://github.com/TeamHG-Memex/arachnado/blob/master/arachnado/motor_exporter/pipelines.py

存入到mongodb ,数据拿到后的样子

《基于scrapy可见可得的爬虫工具arachnado》

文章来源: brucedone.com,作者:大鱼的鱼塘,版权归原作者所有,如需转载,请联系作者。

原文链接:brucedone.com/archives/496

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。