- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

AI-数据采集-爬虫基础（一）

咔吧咔吧发表于 2020/10/21 15:05:39 2020/10/21

【摘要】对于开发者而言，数据采集是开发人工智能应用时面临的首要问题。数据采集的内容涉及图像、视频、音频、结构化表格数据以及环境信息。数据采集是数据管理的起始环节，一般而言，数据越多越丰富，算法所达到的效果越好。尤其是对于深度学习而言，数据量越大，模型表现一般越好。那么我们从哪里得到这么多数据呢？如果你实在找不到你所需要的数据集，那么你不妨学学爬虫。在这里我会慢慢给大家介绍一些爬虫的相...

对于开发者而言，数据采集是开发人工智能应用时面临的首要问题。数据采集的内容涉及图像、视频、音频、结构化表格数据以及环境信息。数据采集是数据管理的起始环节，一般而言，数据越多越丰富，算法所达到的效果越好。尤其是对于深度学习而言，数据量越大，模型表现一般越好。

那么我们从哪里得到这么多数据呢？如果你实在找不到你所需要的数据集，那么你不妨学学爬虫。在这里我会慢慢给大家介绍一些爬虫的相关知识。帮助大家爬虫快速入门。在后面我带着大家逐一了解requests模块、数据提取、高性能爬虫、selenium、反爬和反反爬、Scrapy框架以及Scrapy-redis分布式相关的知识。

万丈高楼平地起，咱们先来学习一下爬虫的相关基础。

爬虫的概念：

网络爬虫又称为网页蜘蛛，网络机器人。就是模拟客户端发送网络请求，接受请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。简而言之就是模拟浏览器，发送请求，获取响应，原则上只要是客户端（浏览器）能做的事情，爬虫都能做。但是爬虫也只能获取客户端所展示出来的数据。

爬虫的作用：

爬虫的作用有很多，他可以进行数据采集抓取网站里的文字图片以及音频信息。还可以用来做软件测试。像大家所熟知的抢票软件也是运用到了爬虫，以及一些大家所说的自动投票软件呀，以及微博的抽奖机器人呀，都是运用了爬虫。还有一种就是大家所深恶痛绝的短信轰炸了，我以前被轰炸过一次，简直就是手机不能开机给人烦的不行。

爬虫的分类：

根据被抓取网站的数量不同，可以分为通用爬虫（比如搜索引擎）和聚焦爬虫（针对于某一个或某一类网站的爬虫，比如12306抢票）

根据是否以获取数据为目的，可以分为功能性爬虫（投票，刷赞）和数据增量爬虫（比如招聘信息）

根据url地址和对应的页面内容是否改变，数据增量爬虫可以分为基于url地址变化、内容也随之变化的数据增量爬虫和url地址不变，内容变化的数据增量爬虫

下面用一张图来概括：

爬虫的流程如下图：

1.获取一个url地址

2.向目标url地址发送请求，并获取响应

3.如果从响应中提取url地址，则继续发送请求获取响应

4.如果从响应中提取数据，则将数据进行保存

另外各位同学有时间可以复习一下http/https协议。对后面的学习有帮助

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

AI-数据采集-爬虫基础（一）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

AI-数据采集-爬虫基础（一）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品