Python爬虫抓取图片和文字02华为云服务器部署

举报
孙小北 发表于 2022/08/31 21:38:55 2022/08/31
【摘要】 实践爬虫小项目,主要涉及华为云服务器ECS、华为云数据库RDS、华为云存储OBS等资源
  • 本小节主要是将开发的爬虫项目部署到华为云服务器,配合数据库RDS实现爬虫来进行文字和图片的抓取。

连接华为云服务器

  • 已购买华为云服务器
  • 连接服务器
ssh root@120.46.135.204
  • 安装依赖
yum -y groupinstall "Development tools"

yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-devel

yum install gcc libffi-devel python-devel openssl-devel -y

yum install libxslt-devel -y

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple selenium
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pymysql
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple pillow

上传爬虫项目并运行

  • 退出弹性云服务器ECS,将代码复制到服务器
cd /home/user/Desktop && scp -r ./vmall_spider root@EIP:/root

# 登录服务器  执行以下命令启动爬虫项目,运行片刻(约30秒),按“Ctrl+Z”键停止运行程序。
cd /root/vmall_spider/vmall_spider/
  • 运行项目
 python3 start.py

查看爬取数据

  • 云数据库RDS查看
    image-20220513214538285.png

存储图片

  • 点击“服务列表”->“存储”->“对象存储服务OBS”进入管理列表。点击“创建桶”
    image-20220513214737745.png

安装对象存储服务OBS客户端

  • 在弹性云服务器ECS上安装对象存储服务OBS客户端。切换至已登录弹性云服务器ECS的命令行界面,执行以下命令下载“obsutil”工具。
cd ~ && wget https://sandbox-experiment-resource-north-4.obs.cn-north-4.myhuaweicloud.com/python-spider-rds/obsutil_linux_amd64.tar.gz

tar zvxf obsutil_linux_amd64.tar.gz
  • 在右上角账号名下拉菜单中选择“我的凭证”->“访问秘钥”,进入创建管理访问密钥(AK/SK)的界面。
    image-20220513214952332.png
cd /home/user/Downloads/

vi credentials.csv


./obsutil_linux_amd64_5.2.5/obsutil config -i=your_ak -k=your_sk -e=https://obs.cn-north-4.myhuaweicloud.com

./obsutil_linux_amd64_5.2.5/obsutil ls -s

/root/obsutil_linux_amd64_5.2.5/obsutil cp /root/vmall_spider/images obs://your_bucket_name -f -r -vmd5 -flat -u

上传爬取图片至对象存储服务OBS并查看

  • 使用创建的对象存储服务OBS的名称(如:obs-spider)替换命令中的“your_bucket_name”
/root/obsutil_linux_amd64_5.2.5/obsutil cp /root/vmall_spider/images obs://your_bucket_name -f -r -vmd5 -flat -u
  • 找到创建的对象存储服务OBS,点击名称打开详情页,点击左侧栏“对象”可看到上传保存的爬取图片

image-20220513215411420.png

小结

  • 本次实践了爬虫小项目,主要涉及华为云服务器ECS、华为云数据库RDS、华为云存储OBS等资源的使用。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。