爬虫管理平台 Crawlab v0.4.10 发布

举报
Marvin Zhang 发表于 2020/11/29 17:10:58 2020/11/29
【摘要】 前言本次更新包括几个部分:日志集中管理自动安装依赖开放 APIWeb Hook自动生成结果集更新日志功能 / 优化优化日志管理. 集中化管理日志,储存在 MongoDB,减少对 PubSub 的依赖,允许日志异常检测.自动安装依赖. 允许从 requirements.txt 和 package.json 自动安装依赖.API Token. 允许用户生成 API Token,并利用它们来集成到...

前言

本次更新包括几个部分:

  1. 日志集中管理
  2. 自动安装依赖
  3. 开放 API
  4. Web Hook
  5. 自动生成结果集

更新日志

功能 / 优化

  • 优化日志管理. 集中化管理日志,储存在 MongoDB,减少对 PubSub 的依赖,允许日志异常检测.
  • 自动安装依赖. 允许从 requirements.txt 和 package.json 自动安装依赖.
  • API Token. 允许用户生成 API Token,并利用它们来集成到自己的系统中.
  • Web Hook. 当任务开始或结束时,触发 Web Hook http 请求到预定义好的 URL.
  • 自动生成结果集. 如果没有设置,自动设置结果集为 results_<spider_name>.
  • 优化项目列表. 项目列表中不展示 "No Project".
  • 升级 Node.js. 将 Node.js 版本从 v8.12 升级到 v10.19.
  • 定时任务增加运行按钮. 允许用户在定时任务界面手动运行爬虫任务.

Bug 修复

  • 无法注册#670
  • 爬虫定时任务标签 Cron 表达式显示秒#678
  • 爬虫每日数据缺失#684
  • 结果数量未即时更新#689

产品规划

  • 结果展示
    • 支持其他数据库
  • 爬虫
    • 支持容器爬虫
    • 长任务爬虫支持
  • 可配置爬虫
    • 可配置爬虫支持 Splash
    • 可配置爬虫支持 CrawlSpider
    • 可配置爬虫支持正则表达式字段
  • 定时任务
    • 日历展示
  • 服务器
    • 支持终端操作 Docker 镜像
  • SDK
    • 更多命令支持
  • 全局
    • 热更新

参考

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。