#化鲲为鹏,我有话说# 鲲鹏弹性云服务器运行网络爬虫(上)
【摘要】 零系统:ubuntu 18.04爬虫:pyspider容器引擎:docker服务器:鲲鹏弹性云KC1记录全部过程一 开放5000端口【控制台】-【弹性云服务器ECS】-【安全组】-【配置规则】-【添加规则】二 Python 环境分别是 依赖库, python3, pip包管理sudo apt-get install python3-dev build-essential libssl-dev...
零
系统:ubuntu 18.04
容器引擎:docker
服务器:鲲鹏弹性云KC1
记录全部过程
一 开放5000端口
【控制台】-【弹性云服务器ECS】-【安全组】-【配置规则】-【添加规则】
二 Python 环境
分别是 依赖库, python3, pip包管理
sudo apt-get install python3-dev build-essential libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev
sudo apt-get install python3
sudo apt-get install python3-pip
二 pyspider 安装
pyspider是一个爬虫架构的开源化实现。主要的功能需求是:
抓取、更新调度多站点的特定的页面
需要对页面进行结构化信息提取
灵活可扩展,稳定可监控
去重调度,队列,抓取,异常处理,监控等功能作为框架,提供给抓取脚本,并保证灵活性。最后加上web的编辑调试环境,以及web任务监控,即成为了这套框架。
pip3 install pyspider
在安装的过程中遇到了错误,期间总共遇到过 3 次异常,超时错误,退出异常等,按照步骤一步步来,会好起来的。
执行下列命令,再次安装 pyspider,耐心等待几分钟,查看版本
apt-get install libcurl4-openssl-dev
pip3 install pyspider
三 phantomjs 安装
PhantomJS 是一个基于 webkit 的 javascriptAPI。它使用 QtWebKit 作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于 webki t浏览器做的事情,它都能做到。PhantomJS 的用处可谓非常广泛,诸如网络监测、网页截屏、无需浏览器的Web 测试、页面访问自动化等。
wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
tar -jxvf phantomjs.tar.bz2
ln -s /usr/local/phantomjs-2.1.1-linux-x86_64/bin/phantomjs /usr/bin/phantomjs
环境已经配置完毕,运行一下试试
四 异常
最会,应该还会遇到一个生命中的 BUG,本文可以说涵盖了安装过程的大部分问题
主要错误信息是
File "/usr/local/lib/python3.6/dist-packages/wsgidav/wsgidav_app.py", line 118, in _check_config
raise ValueError("Invalid configuration:\n - " + "\n - ".join(errors))
ValueError: Invalid configuration:
- Deprecated option 'domaincontroller': use 'http_authenticator.domain_controller' instead.
执行以下命令
pip3 install wsgidav==2.4.1
# 终于启动
pyspider all
五 在本地电脑输入 ip:5000
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)