使用Python爬虫抓取图片和文字实验微认证知识点回顾

举报
花溪 发表于 2021/03/26 17:12:05 2021/03/26
【摘要】 使用Python爬虫抓取图片和文字实验微认证知识点回顾

网络爬虫是如何工作的

image.png

网络爬虫能做什么

  1. 搜索引擎:谷歌 百度
  2. 信息收集:新闻资源聚合
  3. 数据分析:商品价格比较、股票量化交易
  4. 图片抓取:抓取特定类型的图片,可用于个人收藏、AI图像分析

为什么使用python编写爬虫

  1. Python编程语言语法简洁,易于学习,快速上手;
  2. Python有成熟的爬虫生态,在抓取网页本身和网页抓取后的处理都有丰富的框架和库可用(如 Beautiful Soup框架、 Urlib2Requests2和库等),编写爬虫不必从零开始;
  3. Python在处理数据方面有天然的优势,可以把 Python爬虫与后续的机器学习、数据可视化无缝对接。

什么是python

Python是一种面向对象的解释型计算机程序设计语言。

  1. 免费、开源;
  2. 多种平台、可扩展、不区分操作系统;
  3. 语法简洁清晰、容易上手;
  4. 语法表达优美易读、利用缩进表示语句块的开始和退出;
  5. 支持模块和包、有极为丰富、功能强大的库;
  6. 在人工智能、科学计算、图形技术、动画、游戏等行业被广泛使用。

什么是HTML

  1. HTML(HyperText Markup Language)是一种用于创建网页的超文本标记语言;
  2. HTML可以构建WEB站点,HTML运行在浏览器上,由浏览器来解析

image.png

抓取图片和文字需要用到的一些标签

image.png

HTTP协议

HTTP (HyperText transfer protocol )超文本传输协议)是一个基于请求与响应模式的应用层的协议,通常是基于TCP的连接方式;

  1. 简单快速:客户请求时只需传送请求方法和路径,程序规模小,因而通信速度很快;
  2. 灵活:HTTP允许传输任意类型的数据对象;
  3. 无连接:服务端每次只处理一个请求,完成即断开,节省传输时间;

HTTP请求

image.png

HTTP响应

image.png

爬虫抓取图片方案对比

image.png

弹性云服务器ECS

弹性云服务器(Elastic Cloud Server)是一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用环境。
ECS的主要特性如下:

  1. 数据可靠:可弹性扩展的虚拟块存储服务,高数据可靠性,高吞吐能力;
  2. 弹性易用:提供控制台、远程终端和A等多种管理方式,给您完全管理权限;
  3. 规格丰富:多类型、多规格、多镜像;
  4. 多维监控:提供开放性的云监控服务平台提供资源的实时监控、告警、通知等服务。

关系型数据库RDS

image.png

对象存储服务OBS

image.png

使用OBS存储爬取内容的优势

image.png

实验过程中用到的主要命令

SQL建表命令

image.png

新建项目文件夹

  1. cd Desktop
  2. scrapy startproject vmall_spider
  3. cd vmall_spider
  4. scrapy genspider -t crawl vmall “vmall.com

下载python安装包

wget https://sandbox-experiment-resource-north-4.obs.cn-north-4.myhuaweicloud.com/python-spider-rds/Python-3.5.5.tgz

解压python安装包

tar -zxvf Python-3.5.5.tgz && cd Python-3.5.5/

安装python

make && make install

升级pip

pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip

退出登录状态

exit

加权限

chmod 777

查看AK和SK内容命令

vi credentials.csv

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

举报
请填写举报理由
0/200