爬虫平台Crawlab v0.2.2发布

举报
Marvin Zhang 发表于 2020/11/29 16:58:21 2020/11/29
【摘要】 Crawlab是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业。对Crawlab还不了解的童鞋,请移步之前的文章:我是如何在3分钟内开发完一个爬虫的爬虫平台Crawlab v0.2发布手把手教你如何用Crawlab构建技术文章聚合平台(二)手把手教你如何用Crawlab构建技术文章聚合平台(一)分布式...

Crawlab是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业。

对Crawlab还不了解的童鞋,请移步之前的文章:

分布式调度系统

Crawlab的任务调度核心模块基于Celery,因此天然支持分布式爬虫、多节点抓取。

自定义爬虫

Crawlab的自定义爬虫可兼容任何语言以及任何框架。从目前开源的框架来看,大部分爬虫平台是以scrapyd为核心,因此只能支持scrapy框架的爬虫,而Crawlab不仅支持scrapy,还支持其他框架的爬虫。

可配置爬虫

Crawlab在版本v0.2.1中新增了可配置爬虫功能,用户通过配置爬虫的抓取规则,不用写任何代码,就可以在1-3分钟内开发好一个集下载、解析、存储一体的常规爬虫。

自动提取匹配规则

v0.2.2中,加入了自动提取列表字段规则,让用户能够一键提取匹配的列表字段,开发时间进一步降低到半分钟以内。因此Crawlab正在朝真正的“一键抓取”的目标迈进。

更新一览

v0.2.2

  • [x] 自动提取匹配规则
  • [x] 下载抓取结果

v0.2.1

  • [x] 可配置爬虫
  • [x] 网站列表

v0.2

  • [x] 基础统计
  • [x] 数据分析(爬虫)
  • [x] 网站信息
  • [x] 定时任务

待开发

  • [ ] 用户管理
  • [ ] 上传爬虫
  • [ ] 下载爬虫
  • [ ] 可配置爬虫支持动态内容
  • [ ] 异常监控
  • [ ] 更多爬虫例子
  • [ ] 文件管理
  • [ ] 日志管理
  • [ ] 部署系统优化

截屏

可配置爬虫(添加)

可配置爬虫(配置)

可配置爬虫(预览)

网站列表

Github: tikazyq/crawlab

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。