建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

花溪

发帖: 46粉丝: 14

发消息 + 关注

发表于2021年04月16日 12:48:32 213 1
直达本楼层的链接
楼主
显示全部楼层
[微认证交流] 使用Python爬虫抓取图片和文字实验微认证知识点回顾

# 网络爬虫是如何工作的 ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616748364659069183.png) # 网络爬虫能做什么 1.搜索引擎:谷歌 百度 2.信息收集:新闻资源聚合 3.数据分析:商品价格比较、股票量化交易 4.图片抓取:抓取特定类型的图片,可用于个人收藏、AI图像分析 # 为什么使用python编写爬虫 1.Python编程语言语法简洁,易于学习,快速上手; 2.Python有成熟的爬虫生态,在抓取网页本身和网页抓取后的处理都有丰富的框架和库可用(如 Beautiful Soup框架、 Urlib2Requests2和库等),编写爬虫不必从零开始; 3.Python在处理数据方面有天然的优势,可以把 Python爬虫与后续的机器学习、数据可视化无缝对接。 # 什么是python Python是一种面向对象的解释型计算机程序设计语言。 1.免费、开源; 2.多种平台、可扩展、不区分操作系统; 3.语法简洁清晰、容易上手; 4.语法表达优美易读、利用缩进表示语句块的开始和退出; 5.支持模块和包、有极为丰富、功能强大的库; 6.在人工智能、科学计算、图形技术、动画、游戏等行业被广泛使用。 # 什么是HTML 1.HTML(HyperText Markup Language)是一种用于创建网页的超文本标记语言; 2.HTML可以构建WEB站点,HTML运行在浏览器上,由浏览器来解析 ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616748725069077449.png) ## 抓取图片和文字需要用到的一些标签 ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616748828461095657.png) # HTTP协议 HTTP (HyperText transfer protocol )超文本传输协议)是一个基于请求与响应模式的应用层的协议,通常是基于TCP的连接方式; 1.简单快速:客户请求时只需传送请求方法和路径,程序规模小,因而通信速度很快; 2.灵活:HTTP允许传输任意类型的数据对象; 3.无连接:服务端每次只处理一个请求,完成即断开,节省传输时间; # HTTP请求 ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616748919384071744.png) # HTTP响应 ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616748937965042922.png) # 爬虫抓取图片方案对比 ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616748999598047069.png) # 弹性云服务器ECS 弹性云服务器(Elastic Cloud Server)是一种可随时自助获取、可弹性伸缩的云服务器,帮助用户打造可靠、安全、灵活、高效的应用环境。 ECS的主要特性如下: 1.数据可靠:可弹性扩展的虚拟块存储服务,高数据可靠性,高吞吐能力; 2.弹性易用:提供控制台、远程终端和A等多种管理方式,给您完全管理权限; 3.规格丰富:多类型、多规格、多镜像; 4.多维监控:提供开放性的云监控服务平台提供资源的实时监控、告警、通知等服务。 # 关系型数据库RDS ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616749109751093286.png) # 对象存储服务OBS ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616749144913062899.png) ## 使用OBS存储爬取内容的优势 ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616749192908069007.png) # 实验过程中用到的主要命令 ## SQL建表命令 ![image.png](https://bbs-img.huaweicloud.com/blogs/img/1616749315641073223.png) ## 新建项目文件夹 1.cd Desktop 2.scrapy startproject vmall_spider 3.cd vmall_spider 4.scrapy genspider -t crawl vmall "vmall.com" ## 下载python安装包 wget https://sandbox-experiment-resource-north-4.obs.cn-north-4.myhuaweicloud.com/python-spider-rds/Python-3.5.5.tgz ## 解压python安装包 tar -zxvf Python-3.5.5.tgz && cd Python-3.5.5/ ## 安装python make && make install ## 升级pip pip3 install -i https://pypi.tuna.tsinghua.edu.cn/simple --upgrade pip ## 退出登录状态 exit ## 加权限 chmod 777 ## 查看AK和SK内容命令 vi credentials.csv

Python

举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

Jack20

发帖: 229粉丝: 179

发消息 + 关注

发表于2021年04月17日 16:44:13
直达本楼层的链接
沙发
显示全部楼层

很详细,谢谢分享

点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200