使用Python爬虫抓取图片和文字实验微认证知识点回顾
【摘要】 使用Python爬虫抓取图片和文字实验微认证知识点回顾
网络爬虫是如何工作的
网络爬虫能做什么
- 搜索引擎:谷歌 百度
- 信息收集:新闻资源聚合
- 数据分析:商品价格比较、股票量化交易
- 图片抓取:抓取特定类型的图片,可用于个人收藏、AI图像分析
为什么使用python编写爬虫
- Python编程语言语法简洁,易于学习,快速上手;
- Python有成熟的爬虫生态,在抓取网页本身和网页抓取后的处理都有丰富的框架和库可用(如 Beautiful Soup框架、 Urlib2Requests2和库等),编写爬虫不必从零开始;
- Python在处理数据方面有天然的优势,可以把 Python爬虫与后续的机器学习、数据可视化无缝对接。
什么是python
Python是一种面向对象的解释型计算机程序设计语言。
- 免费、开源;
- 多种平台、可扩展、不区分操作系统;
- 语法简洁清晰、容易上手;
- 语法表达优美易读、利用缩进表示语句块的开始和退出;
- 支持模块和包、有极为丰富、功能强大的库;
- 在人工智能、科学计算、图形技术、动画、游戏等行业被广泛使用。
什么是HTML
- HTML(HyperText Markup Language)是一种用于创建网页的超文本标记语言;
- HTML可以构建WEB站点,HTML运行在浏览器上,由浏览器来解析
抓取图片和文字需要用到的一些标签
HTTP协议
HTTP (HyperText transfer protocol )超文本传输协议)是一个基于请求与响应模式的应用层的协议,通常是基于TCP的连接方式;
- 简单快速:客户请求时只需传送请求方法和路径,程序规模小,因而通信速度很快;
- 灵活:HTTP允许传输任意类型的数据对象;
- 无连接:服务端每次只处理一个请求,完成即断开,节省传输时间;
HTTP请求
HTTP响应
爬虫抓取图片方案对比
弹性云服务器ECS
弹性云服务器(Elastic Cloud Server)是一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用环境。
ECS的主要特性如下:
- 数据可靠:可弹性扩展的虚拟块存储服务,高数据可靠性,高吞吐能力;
- 弹性易用:提供控制台、远程终端和A等多种管理方式,给您完全管理权限;
- 规格丰富:多类型、多规格、多镜像;
- 多维监控:提供开放性的云监控服务平台提供资源的实时监控、告警、通知等服务。
关系型数据库RDS
对象存储服务OBS
使用OBS存储爬取内容的优势
实验过程中用到的主要命令
SQL建表命令
新建项目文件夹
- cd Desktop
- scrapy startproject vmall_spider
- cd vmall_spider
- scrapy genspider -t crawl vmall “vmall.com”
下载python安装包
解压python安装包
tar -zxvf Python-3.5.5.tgz && cd Python-3.5.5/
安装python
make && make install
升级pip
pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip
退出登录状态
exit
加权限
chmod 777
查看AK和SK内容命令
vi credentials.csv
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)