- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Java爬虫框架（高度灵活可配置）

Archive 发表于 2023/02/17 09:17:36 2023/02/17

【摘要】介绍平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台特性支持Xpath/JsonPath/css选择器/正则提取/混搭提取支持JSON/XML/二进制格式支持多数据源、SQL select/selectInt/selectOne/insert/update/delete支持爬取JS动态渲染(或ajax)的页面支持代理支持自动保存至数据库/文件常用字符串、日期、文件、加解密等函数支持...

介绍

平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台

特性

支持Xpath/JsonPath/css选择器/正则提取/混搭提取
支持JSON/XML/二进制格式
支持多数据源、SQL select/selectInt/selectOne/insert/update/delete
支持爬取JS动态渲染(或ajax)的页面
支持代理
支持自动保存至数据库/文件
常用字符串、日期、文件、加解密等函数
支持插件扩展(自定义执行器，自定义方法）
任务监控,任务日志
支持HTTP接口
支持Cookie自动管理
支持自定义函数

插件

Selenium插件
Redis插件
OSS插件
Mongodb插件
IP代理池插件
OCR识别插件
电子邮箱插件
微信搜索公众号：架构师指南，回复：架构师领取资料。

项目部分截图

爬虫列表

日志

免责声明

请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow，遵守蜘蛛协议，不要将spider-flow用于任何非法用途。

如您选择使用spider-flow即代表您遵守此协议，作者不承担任何由于您违反此协议带来任何的法律风险和损失，一切后果由您承担。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Java爬虫框架（高度灵活可配置）

介绍

特性

插件

项目部分截图

免责声明

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Java爬虫框架（高度灵活可配置）

介绍

特性

插件

项目部分截图

免责声明

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品