python爬虫:scrapy可视化管理工具spiderkeeper部署
【摘要】
需要安装的库比较多,可以按照步骤,参看上图理解
环境准备
scrapy: https://github.com/scrapy/scrapy scrapyd: https://github.com/scrapy/scrapyd scrapyd-client: https://github.com/scrapy/scrapyd-client SpiderKee...
需要安装的库比较多,可以按照步骤,参看上图理解
环境准备
scrapy: https://github.com/scrapy/scrapy
scrapyd: https://github.com/scrapy/scrapyd
scrapyd-client: https://github.com/scrapy/scrapyd-client
SpiderKeeper: https://github.com/DormyMo/SpiderKeeper
安装
pip install scrapy scrapyd scrapyd-client spiderkeeper
- 1
部署项目
第一步,启动scrapyd
$ scrapyd
- 1
关于scrapyd的部署安装参考:scrapy部署之scrapyd
第二步,启动SpiderKeeper
借用 SpiderKeeper 的 github 的指导(我翻译的):
命令行启动
$ spiderkeeper
- 1
选项:
spiderkeeper [options]
Options: -h, --help 展示帮助信息并且退出
--host=HOST host, 默认:0.0.0.0
--port=PORT port, 默认:5000
--username=USERNAME 设置用户名 ,默认: admin
--password=PASSWORD 设置密码 ,默认: admin
--type=SERVER_TYPE 接受蜘蛛服务器类型, 默认: scrapyd
--server=SERVERS 爬虫服务器, 默认: ['http://localhost:6800']
--database-url=DATABASE_URL
SpiderKeeper 数据库,默认: sqlite:home/souche/SpiderKeeper.db
--no-auth 不进行验证
-v, --verbose 日志级别
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
SpiderKeeper可视化地址: http://localhost:5000
第三步,部署项目
1、创建项目
2、使用 scrapyd-client 生成 egg 文件 (进入需要上传的scrapy项目目录)
$ scrapyd-deploy --build-egg output.egg
- 1
3、上传 egg 文件 (确保已经启动 scrapyd 服务)
4、 完成!开始享受吧
总结
看着比较多,其实就是执行了四行语句:
- 安装4个包
- 启动scrapyd
- 启动spiderkeeper
- 打包scrapy项目
错误及解决
如果提示端口占用就参考这个文章解决:
文章来源: pengshiyu.blog.csdn.net,作者:彭世瑜,版权归原作者所有,如需转载,请联系作者。
原文链接:pengshiyu.blog.csdn.net/article/details/80408795
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)