- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

python爬虫：scrapy可视化管理工具spiderkeeper部署

彭世瑜发表于 2021/08/14 00:48:58 2021/08/14

【摘要】需要安装的库比较多，可以按照步骤，参看上图理解环境准备 scrapy: https://github.com/scrapy/scrapy scrapyd: https://github.com/scrapy/scrapyd scrapyd-client: https://github.com/scrapy/scrapyd-client SpiderKee...

需要安装的库比较多，可以按照步骤，参看上图理解

环境准备

scrapy: https://github.com/scrapy/scrapy
scrapyd: https://github.com/scrapy/scrapyd
scrapyd-client: https://github.com/scrapy/scrapyd-client
SpiderKeeper: https://github.com/DormyMo/SpiderKeeper

安装

pip install scrapy scrapyd scrapyd-client spiderkeeper
  
 
  1

部署项目

第一步，启动scrapyd

$ scrapyd
  
 
  1

测试地址：http://localhost:6800/

关于scrapyd的部署安装参考：scrapy部署之scrapyd

第二步，启动SpiderKeeper

借用 SpiderKeeper 的 github 的指导（我翻译的）：
命令行启动

$ spiderkeeper
  
 
  1

选项：

spiderkeeper [options]

Options: -h, --help 展示帮助信息并且退出
  --host=HOST host, 默认:0.0.0.0
  --port=PORT port, 默认:5000
  --username=USERNAME   设置用户名 ,默认: admin
  --password=PASSWORD   设置密码 ,默认: admin
  --type=SERVER_TYPE 接受蜘蛛服务器类型, 默认: scrapyd
  --server=SERVERS 爬虫服务器, 默认: ['http://localhost:6800']
  --database-url=DATABASE_URL
 SpiderKeeper 数据库，默认: sqlite:home/souche/SpiderKeeper.db
  --no-auth 不进行验证
  -v, --verbose 日志级别

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16

SpiderKeeper可视化地址: http://localhost:5000

第三步，部署项目

1、创建项目

2、使用 scrapyd-client 生成 egg 文件（进入需要上传的scrapy项目目录）

$ scrapyd-deploy --build-egg output.egg
  
 
  1

3、上传 egg 文件 (确保已经启动 scrapyd 服务)

4、完成！开始享受吧

总结

看着比较多，其实就是执行了四行语句：

安装4个包
启动scrapyd
启动spiderkeeper
打包scrapy项目

错误及解决

如果提示端口占用就参考这个文章解决：

flask的端口占用问题

文章来源: pengshiyu.blog.csdn.net，作者：彭世瑜，版权归原作者所有，如需转载，请联系作者。

原文链接：pengshiyu.blog.csdn.net/article/details/80408795

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入