云社区 博客 博客详情
云社区 博客 博客详情

#化鲲为鹏,我有话说# 鲲鹏弹性云服务器运行网络爬虫(上)

golang 发表于 2019-11-13 03:37:00 11-13 03:37
golang 发表于 2019-11-13 03:37:00 2019/11/13
1
1

【摘要】 零系统:ubuntu 18.04爬虫:pyspider容器引擎:docker服务器:鲲鹏弹性云KC1记录全部过程一 开放5000端口【控制台】-【弹性云服务器ECS】-【安全组】-【配置规则】-【添加规则】二 Python 环境分别是 依赖库, python3, pip包管理sudo apt-get install python3-dev build-essential libssl-dev...

系统:ubuntu 18.04

爬虫:pyspider

容器引擎:docker

服务器:鲲鹏弹性云KC1

记录全部过程


一 开放5000端口

【控制台】-【弹性云服务器ECS】-【安全组】-【配置规则】-【添加规则】

//q08lachnw.bkt.clouddn.com/PicGo/20191113022005.png

//q08lachnw.bkt.clouddn.com/PicGo/20191113021820.png

二 Python 环境

分别是 依赖库, python3, pip包管理

sudo apt-get install python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev 

sudo apt-get install python3

sudo apt-get install python3-pip

//q08lachnw.bkt.clouddn.com/PicGo/20191113002953.png

//q08lachnw.bkt.clouddn.com/PicGo/20191113004930.png


二 pyspider 安装

pyspider是一个爬虫架构的开源化实现。主要的功能需求是:

  1. 抓取、更新调度多站点的特定的页面

  2. 需要对页面进行结构化信息提取

  3. 灵活可扩展,稳定可监控

去重调度,队列,抓取,异常处理,监控等功能作为框架,提供给抓取脚本,并保证灵活性。最后加上web的编辑调试环境,以及web任务监控,即成为了这套框架。

pip3 install pyspider

//q08lachnw.bkt.clouddn.com/PicGo/20191113005919.png

在安装的过程中遇到了错误,期间总共遇到过 3 次异常,超时错误,退出异常等,按照步骤一步步来,会好起来的。

执行下列命令,再次安装 pyspider,耐心等待几分钟,查看版本

apt-get install libcurl4-openssl-dev
pip3 install pyspider

//q08lachnw.bkt.clouddn.com/PicGo/20191113030152.png

三 phantomjs 安装

PhantomJS 是一个基于 webkit 的 javascriptAPI。它使用 QtWebKit 作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于 webki t浏览器做的事情,它都能做到。PhantomJS 的用处可谓非常广泛,诸如网络监测、网页截屏、无需浏览器的Web 测试、页面访问自动化等。

wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
tar -jxvf phantomjs.tar.bz2
ln -s /usr/local/phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/bin/phantomjs

//q08lachnw.bkt.clouddn.com/PicGo/20191113030431.png

//q08lachnw.bkt.clouddn.com/PicGo/20191113031253.png

环境已经配置完毕,运行一下试试

四 异常

最会,应该还会遇到一个生命中的 BUG,本文可以说涵盖了安装过程的大部分问题

主要错误信息是

  File "/usr/local/lib/python3.6/dist-packages/wsgidav/wsgidav_app.py", line 118, in _check_config
   raise ValueError("Invalid configuration:\n  - " + "\n  - ".join(errors))
ValueError: Invalid configuration:
 - Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.

//q08lachnw.bkt.clouddn.com/PicGo/20191113031548.png

执行以下命令

pip3 install wsgidav==2.4.1
# 终于启动
pyspider all

//q08lachnw.bkt.clouddn.com/PicGo/20191113031849.png

五 在本地电脑输入   ip:5000

//q08lachnw.bkt.clouddn.com/PicGo/20191113032204.png

登录后可下载附件,请登录或者注册

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:huaweicloud.bbs@huawei.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
评论文章 //点赞 收藏 1
点赞
分享文章到微博
分享文章到朋友圈

评论 (1)


寻水的鱼

1楼2019-12-03 14:07:24
博主,你好!正文图片看不到,请将图存本地,插入图
0/1000
评论

登录后可评论,请 登录注册

评论

您还没有写博客的权限!

温馨提示

您确认删除评论吗?

确定
取消
温馨提示

您确认删除评论吗?

删除操作无法恢复,请谨慎操作。

确定
取消
温馨提示

您确认删除博客吗?

确定
取消

确认删除

您确认删除博客吗?

确认删除

您确认删除评论吗?

温馨提示

登录超时或用户已下线,请重新登录!!!

确定
取消