python爬虫:scrapy可视化管理工具spiderkeeper部署

举报
彭世瑜 发表于 2021/08/14 00:48:58 2021/08/14
【摘要】 需要安装的库比较多,可以按照步骤,参看上图理解 环境准备 scrapy: https://github.com/scrapy/scrapy scrapyd: https://github.com/scrapy/scrapyd scrapyd-client: https://github.com/scrapy/scrapyd-client SpiderKee...

这里写图片描述

需要安装的库比较多,可以按照步骤,参看上图理解

环境准备

scrapy: https://github.com/scrapy/scrapy
scrapyd: https://github.com/scrapy/scrapyd
scrapyd-client: https://github.com/scrapy/scrapyd-client
SpiderKeeper: https://github.com/DormyMo/SpiderKeeper

安装

pip install scrapy scrapyd scrapyd-client spiderkeeper
  
 
  • 1

部署项目

第一步,启动scrapyd

$ scrapyd
  
 
  • 1

测试地址:http://localhost:6800/

关于scrapyd的部署安装参考:scrapy部署之scrapyd

第二步,启动SpiderKeeper

借用 SpiderKeeper 的 github 的指导(我翻译的):
命令行启动

$ spiderkeeper
  
 
  • 1

选项:

spiderkeeper [options]

Options: -h, --help 展示帮助信息并且退出
  --host=HOST host, 默认:0.0.0.0
  --port=PORT port, 默认:5000
  --username=USERNAME   设置用户名 ,默认: admin
  --password=PASSWORD   设置密码 ,默认: admin
  --type=SERVER_TYPE 接受蜘蛛服务器类型, 默认: scrapyd
  --server=SERVERS 爬虫服务器, 默认: ['http://localhost:6800']
  --database-url=DATABASE_URL
 SpiderKeeper 数据库,默认: sqlite:home/souche/SpiderKeeper.db
  --no-auth 不进行验证
  -v, --verbose 日志级别

  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16

SpiderKeeper可视化地址: http://localhost:5000

第三步,部署项目

1、创建项目

2、使用 scrapyd-client 生成 egg 文件 (进入需要上传的scrapy项目目录)

$ scrapyd-deploy --build-egg output.egg
  
 
  • 1

3、上传 egg 文件 (确保已经启动 scrapyd 服务)

4、 完成!开始享受吧

总结

看着比较多,其实就是执行了四行语句:

  • 安装4个包
  • 启动scrapyd
  • 启动spiderkeeper
  • 打包scrapy项目

错误及解决

如果提示端口占用就参考这个文章解决:

flask的端口占用问题

文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。

原文链接:pengshiyu.blog.csdn.net/article/details/80408795

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。