#化鲲为鹏,我有话说# 鲲鹏弹性云服务器运行网络爬虫(上)

举报
golang 发表于 2019/11/13 03:37:00 2019/11/13
【摘要】 零系统:ubuntu 18.04爬虫:pyspider容器引擎:docker服务器:鲲鹏弹性云KC1记录全部过程一 开放5000端口【控制台】-【弹性云服务器ECS】-【安全组】-【配置规则】-【添加规则】二 Python 环境分别是 依赖库, python3, pip包管理sudo apt-get install python3-dev build-essential libssl-dev...

系统:ubuntu 18.04

爬虫:pyspider

容器引擎:docker

服务器:鲲鹏弹性云KC1

记录全部过程


一 开放5000端口

【控制台】-【弹性云服务器ECS】-【安全组】-【配置规则】-【添加规则】

//q08lachnw.bkt.clouddn.com/PicGo/20191113022005.png

//q08lachnw.bkt.clouddn.com/PicGo/20191113021820.png

二 Python 环境

分别是 依赖库, python3, pip包管理

sudo apt-get install python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev 

sudo apt-get install python3

sudo apt-get install python3-pip

//q08lachnw.bkt.clouddn.com/PicGo/20191113002953.png

//q08lachnw.bkt.clouddn.com/PicGo/20191113004930.png


二 pyspider 安装

pyspider是一个爬虫架构的开源化实现。主要的功能需求是:

  1. 抓取、更新调度多站点的特定的页面

  2. 需要对页面进行结构化信息提取

  3. 灵活可扩展,稳定可监控

去重调度,队列,抓取,异常处理,监控等功能作为框架,提供给抓取脚本,并保证灵活性。最后加上web的编辑调试环境,以及web任务监控,即成为了这套框架。

pip3 install pyspider

//q08lachnw.bkt.clouddn.com/PicGo/20191113005919.png

在安装的过程中遇到了错误,期间总共遇到过 3 次异常,超时错误,退出异常等,按照步骤一步步来,会好起来的。

执行下列命令,再次安装 pyspider,耐心等待几分钟,查看版本

apt-get install libcurl4-openssl-dev
pip3 install pyspider

//q08lachnw.bkt.clouddn.com/PicGo/20191113030152.png

三 phantomjs 安装

PhantomJS 是一个基于 webkit 的 javascriptAPI。它使用 QtWebKit 作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于 webki t浏览器做的事情,它都能做到。PhantomJS 的用处可谓非常广泛,诸如网络监测、网页截屏、无需浏览器的Web 测试、页面访问自动化等。

wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
tar -jxvf phantomjs.tar.bz2
ln -s /usr/local/phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/bin/phantomjs

//q08lachnw.bkt.clouddn.com/PicGo/20191113030431.png

//q08lachnw.bkt.clouddn.com/PicGo/20191113031253.png

环境已经配置完毕,运行一下试试

四 异常

最会,应该还会遇到一个生命中的 BUG,本文可以说涵盖了安装过程的大部分问题

主要错误信息是

  File "/usr/local/lib/python3.6/dist-packages/wsgidav/wsgidav_app.py", line 118, in _check_config
   raise ValueError("Invalid configuration:\n  - " + "\n  - ".join(errors))
ValueError: Invalid configuration:
 - Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.

//q08lachnw.bkt.clouddn.com/PicGo/20191113031548.png

执行以下命令

pip3 install wsgidav==2.4.1
# 终于启动
pyspider all

//q08lachnw.bkt.clouddn.com/PicGo/20191113031849.png

五 在本地电脑输入   ip:5000

//q08lachnw.bkt.clouddn.com/PicGo/20191113032204.png

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。