爬虫管理平台 Crawlab 专业版 v0.1.0 正式发布

举报
Marvin Zhang 发表于 2020/11/29 17:04:10 2020/11/29
【摘要】 前言爬虫管理平台旨在解决大量不同类别爬虫难以管理的问题,能够在一体化平台中部署调度、监控爬虫程序,做到高效数据抓取,让工程师们不再被繁琐的爬虫管理问题所困扰,能够将主要精力放在爬虫开发上。分布式爬虫管理平台 Crawlab 就是为了解决核心问题而诞生的。自去年 3 月份发布以来,Crawlab 受到很多开发者喜爱,如今在 Github 上已有 6.3k Stars,到目前为止使用过 Craw...

前言

爬虫管理平台旨在解决大量不同类别爬虫难以管理的问题,能够在一体化平台中部署调度、监控爬虫程序,做到高效数据抓取,让工程师们不再被繁琐的爬虫管理问题所困扰,能够将主要精力放在爬虫开发上。分布式爬虫管理平台 Crawlab 就是为了解决核心问题而诞生的。自去年 3 月份发布以来,Crawlab 受到很多开发者喜爱,如今在 Github 上已有 6.3k Stars,到目前为止使用过 Crawlab 的用户数(不包括 Demo)已经超过 6k,而且这些数字还在不断高速增长。Crawlab 是一个基于 Golang 的分布式爬虫管理平台,包括爬虫自动部署、分布式调度、日志监控、定时任务、数据分析、可配置爬虫、SDK、消息通知、Scrapy 支持、Git 同步等功能。Crawlab 具有强大的功能以及精美的前端页面,在市面上属于领先的爬虫管理平台,比基于 Scrapyd 的爬虫管理平台更灵活和实用。

但目前 Crawlab 也有部分不足,就是在一些企业级应用场景,例如大吞吐量数据抓取、大量日志写入、监控报警、集成 MySQL/Kafka/ES 等其他数据源,性能、稳定性或功能上会有所欠缺。因此,为了解决这些问题,让 Crawlab 更好的应用在企业级环境中,我们推出了 Crawlab 专业版(Crawlab Pro),让工程师能够在较高的数据吞吐量上稳定运行爬虫程序。

专业版

Crawlab 专业版 (Crawlab Pro) 是针对专业用户开发的。它稳定性更高,相较于社区版(开源版)功能更强大。专业版在底层特别是数据库层面做了大量的优化,保证爬虫任务能够稳定而高效的运行并抓取数据。此外,专业版相较于社区版有很多强大的专属功能,例如节点、数据库监控功能,SQL 数据库 (MySQL、Postgres) 集成等等。近期我们将上线 Kafka、ElasticSearch 集成的功能,以帮助 Crawlab 用户更好的集成自己的数据系统 (例如数据仓库)。在未来,我们将支持更加高级的可配置爬虫。

性能监控

性能监控是 Crawlab 专业版的专属功能,让用户能够在不用额外监控软件的情况下轻松监控节点和数据库性能指标。你要知道,部署安装一套 Zabbix、StatsD、Prometheus + Grafana 等专用监控解决方案的时间成本和维护成本可不小。有了专业版,您可以随时掌握自己节点和数据库的 CPU、内存、磁盘、网络等性能情况,在必要时进行扩容或合理分配爬虫资源。

专业版的主页中增加了性能监控的仪表盘,可以实时查看到 MongoDB、Redis、节点的性能指标。

此外,您还可以在 “监控” 页面查看性能指标的时间序列图表,能够一目了然查看历史性能数据,快速识别性能瓶颈。

您不需要做任何其他操作就可以让监控功能工作起来,您需要做的只是将 Crawlab 专业版节点运行起来,部署步骤与社区版一模一样,对于已经掌握的开发者来说非常简单,没有任何学习成本。对于第一次接触 Crawlab 的朋友来说,只需要学习一下 Docker 的安装和操作。有了 Crawlab 专业版之后,您几乎不需要花时间和精力安装其他复杂的监控软件了。

更多数据源支持

有不少用户反馈说他们的储存数据库不是 MongoDB,而是 MySQL、Postgres、SQL Server 这样的传统关系型数据库。因此,在专业版中,我们增加了对这些关系型数据库的支持,让用户能够直接利用 SDK 将数据保存在 MySQL、Postgres、SQL Server 中。

Kafka 支持(即将上线)

很多用户是将数据通过 Kafka 上报数据仓库储存的。因此,对于这部分用户来说,我们正在开发对 Kafka 的 SDK 支持。

其他功能建议

我们开发 Crawlab 专业版主要是为了让企业级要求的用户使用起来更方便,希望能够获得真实而重要的用户反馈。

技术服务

在与 Crawlab 用户沟通的过程中,我们发现不少用户希望能够快速上手 Crawlab,但是又苦于对 Docker 或 Crawlab 部署方式不了解,很多时候时间也比较紧张经不起折腾,但是用户也很想使用 Crawlab。为了解决这个问题,我们推出了专业的技术支持服务,以帮助希望在生产环境使用 Crawlab、或希望快速体验 Crawlab 的企业或个人用户。

同时,对于专业版用户,我们提供免费的技术咨询服务,让用户们能够无障碍使用爬虫管理平台 Crawlab,及时对使用过程中出现的问题进行答疑解惑。

什么是技术支持服务

技术支持服务是一种专业服务,是帮助不希望折腾 Crawlab 的用户快速解决问题的一种有偿服务。技术支持服务通常是由 Crawlab 专业人员,通常是开发组工程师,提供远程协助,例如帮助部署 Crawlab、添加 Crawlab 节点、安装爬虫依赖等等。

什么是技术咨询服务

技术咨询服务是针对专业版用户的免费咨询服务,是开发组帮助专业版用户答疑解惑的技术服务。咨询服务主要是针对用户在部署使用 Crawlab 过程中的一些答疑,配合技术文档,让用户能更快的自行解决自己遇到的问题。

为什么需要技术支持服务和技术咨询服务

根据调查,有不少爬虫开发人员并不了解部署 Crawlab 或者在生产环境中使用 Crawlab 的相关技术,例如基础的 Docker、Docker Compose、MongoDB、Redis,或者高级一点的 Kubernetes(K8S)、数据库迁移等等。我们推出技术支持服务和技术咨询服务,是为了让大家更加轻松的使用 Crawlab 来管理爬虫,将主要精力放在开发和维护爬虫,而不是将大量的时间和精力消耗在平台维护上面。对于技术支持服务,由于涉及到人工成本,我们将其作为有偿的技术服务,后面会详细介绍技术支持服务的价格。

技术支持服务内容

技术支持服务的内容包含但并不限于以下内容:

  • 部署 Crawlab 服务
  • 添加 Crawlab 节点
  • 升级 Crawlab
  • 安装爬虫依赖
  • 部署迁移数据库
  • 备份数据
  • 安装维护K8S集群
  • 优化服务架构
  • 爬虫开发技术指导
  • 解决疑难杂症
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。