[爬虫资源]各大爬虫资源大汇总,做我们自己的awesome系列

举报
~大鱼~ 发表于 2021/05/27 00:28:21 2021/05/27
【摘要】 大数据的流行一定程序导致的爬虫的流行,有些企业和公司本身不生产数据,那就只能从网上爬取数据,笔者关注相关的内容有一定的时间,也写过很多关于爬虫的系列,现在收集好的框架希望能为对爬虫有兴趣的人,或者想更进一步的研究的人提供索引,也随时欢迎大家star,fork ,或者提issue,让我们一起来完善这个awesome系列. ==>github地址<== Awesome...

大数据的流行一定程序导致的爬虫的流行,有些企业和公司本身不生产数据,那就只能从网上爬取数据,笔者关注相关的内容有一定的时间,也写过很多关于爬虫的系列,现在收集好的框架希望能为对爬虫有兴趣的人,或者想更进一步的研究的人提供索引,也随时欢迎大家star,fork ,或者提issue,让我们一起来完善这个awesome系列.

==>github地址<==

Awesome-crawler《[爬虫资源]各大爬虫资源大汇总,做我们自己的awesome系列》

A collection of awesome web crawler,spider and resources in different language

Python

  • Scrapy – A fast high-level screen scraping and web crawling framework.
  • pyspider – A powerful spider system.
  • cola – A distributed crawling framework.
  • Demiurge – PyQuery-based scraping micro-framework.
  • feedparser – Universal feed parser.
  • Grab – Site scraping framework.
  • MechanicalSoup – A Python library for automating interaction with websites.
  • portia – Visual scraping for Scrapy.
  • crawley – Pythonic Crawling / Scraping Framework based on Non Blocking I/O operations.
  • RoboBrowser – A simple, Pythonic library for browsing the web without a standalone web browser.
  • MSpider – A simple ,easy spider using gevent and js render.

这是其中的一部分,还有其它相应语言的优秀爬虫框架在github里面,更多的请移步到github中

https://github.com/BruceDone/awesome-crawler

文章来源: brucedone.com,作者:大鱼的鱼塘,版权归原作者所有,如需转载,请联系作者。

原文链接:brucedone.com/archives/852

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。