Scrapy可视化管理管理工具总结

举报
彭世瑜 发表于 2021/08/14 00:03:12 2021/08/14
【摘要】 本文总结了与Scrapy框架相关的一些开源工具 1、scrapyd 项目地址:https://github.com/scrapy/scrapyd 文档: https://scrapyd.readthedocs.io/ Scrapyd 是一个运行 Scrapy 爬虫程序的服务 pip install scrapyd scrapyd # 启动服务 123 环...

本文总结了与Scrapy框架相关的一些开源工具

1、scrapyd

项目地址:https://github.com/scrapy/scrapyd

文档: https://scrapyd.readthedocs.io/

Scrapyd 是一个运行 Scrapy 爬虫程序的服务

pip install scrapyd

scrapyd  # 启动服务

  
 
  • 1
  • 2
  • 3

环境测试: http://localhost:6800/
在这里插入图片描述

2、ScrapydAPI

项目地址:https://github.com/djm/python-scrapyd-api

一个 Scrapyd API 的python封装

pip install python-scrapyd-api

  
 
  • 1
from scrapyd_api import ScrapydAPI

scrapyd = ScrapydAPI('http://localhost:6800')

  
 
  • 1
  • 2
  • 3

3、ScrapydArt

项目地址:https://github.com/dequinns/ScrapydArt

ScrapydArt在Scrapyd基础上新增了权限验证、筛选过滤、排序、数据统计以及排行榜等功能,并且有了更强大的API

pip install scrapydart 

$ scrapydart  # 启动

  
 
  • 1
  • 2
  • 3

web界面 http://localhost:6800
在这里插入图片描述

4、ScrapydWeb

项目地址:https://github.com/my8100/scrapydweb

功能特性:
Scrapyd 集群管理
Scrapy 日志分析
支持所有 Scrapyd API
web UI 支持 Basic Auth

pip install scrapydweb

$ scrapydweb -h # 初始化
$ scrapydweb  # 启动

  
 
  • 1
  • 2
  • 3
  • 4

管理页面:http://127.0.0.1:5000

在这里插入图片描述

参考:
如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

5、Gerapy

项目地址:https://github.com/Gerapy/Gerapy

一款分布式爬虫管理框架
控制爬虫运行,
查看爬虫状态,
查看爬取结果,
项目部署,
主机管理,
编写爬虫代码

pip3 install gerapy

$ gerapy init
$ cd gerapy
$ gerapy migrate
$ gerapy runserver

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

web界面: http://localhost:8000
在这里插入图片描述

参考:
scrapyd部署、使用Gerapy 分布式爬虫管理框架

6、SpiderKeeper

项目地址:https://github.com/DormyMo/SpiderKeeper
一个scrapyd的可视化工具

pip install spiderkeeper

$ spiderkeeper  # 启动

  
 
  • 1
  • 2
  • 3

web ui : http://localhost:5000
在这里插入图片描述

7、SpiderAdmin

github: https://github.com/mouday/SpiderAdmin
pypi: https://pypi.org/project/spideradmin/

功能介绍
1、对Scrapyd 接口进行可视化封装,对Scrapy爬虫项目进行删除 和 查看

2、对爬虫设置定时任务,支持apscheduler 的3中方式和随机延时,共计4中方式
单次运行 date
周期运行 corn
间隔运行 interval
随机运行 random

3、基于Flask-BasicAuth 做了简单的权限校验

启动运行

$ pip3 install spideradmin

$ spideradmin # 启动服务

  
 
  • 1
  • 2
  • 3

访问:
http://127.0.0.1:5000/
在这里插入图片描述

总结

分类 名称 简介
爬虫框架 Scrapy 爬虫程序
服务端 Scrapyd Scrapy爬虫管理程序
服务端 ScrapydArt 增强版的 Scrapyd
客户端 ScrapydAPI 对Scrapyd API的封装
客户端 ScrapydWeb 管理调度 Scrapyd
客户端 Gerapy 管理调度 Scrapyd
客户端 SpiderKeeper 管理调度 Scrapyd
客户端 SpiderAdmin 管理调度 Scrapyd

文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。

原文链接:pengshiyu.blog.csdn.net/article/details/84926296

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。