Java爬虫框架(高度灵活可配置)
【摘要】 介绍平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台特性支持Xpath/JsonPath/css选择器/正则提取/混搭提取支持JSON/XML/二进制格式支持多数据源、SQL select/selectInt/selectOne/insert/update/delete支持爬取JS动态渲染(或ajax)的页面支持代理支持自动保存至数据库/文件常用字符串、日期、文件、加解密等函数支持...
介绍
平台以流程图的方式定义爬虫,是一个高度灵活可配置的爬虫平台
特性
-
支持Xpath/JsonPath/css选择器/正则提取/混搭提取 -
支持JSON/XML/二进制格式 -
支持多数据源、SQL select/selectInt/selectOne/insert/update/delete -
支持爬取JS动态渲染(或ajax)的页面 -
支持代理 -
支持自动保存至数据库/文件 -
常用字符串、日期、文件、加解密等函数 -
支持插件扩展(自定义执行器,自定义方法) -
任务监控,任务日志 -
支持HTTP接口 -
支持Cookie自动管理 -
支持自定义函数
插件
-
Selenium插件 -
Redis插件 -
OSS插件 -
Mongodb插件 -
IP代理池插件 -
OCR识别插件 -
电子邮箱插件 -
微信搜索公众号:架构师指南,回复:架构师 领取资料 。
项目部分截图
爬虫列表
日志
免责声明
请勿将spider-flow应用到任何可能会违反法律规定和道德约束的工作中,请友善使用spider-flow,遵守蜘蛛协议,不要将spider-flow用于任何非法用途。
如您选择使用spider-flow即代表您遵守此协议,作者不承担任何由于您违反此协议带来任何的法律风险和损失,一切后果由您承担。
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)