AI-数据采集-爬虫基础(一)
对于开发者而言,数据采集是开发人工智能应用时面临的首要问题。数据采集的内容涉及图像、视频、音频、结构化表格数据以及环境信息。数据采集是数据管理的起始环节,一般而言,数据越多越丰富,算法所达到的效果越好。尤其是对于深度学习而言,数据量越大,模型表现一般越好。
那么我们从哪里得到这么多数据呢?如果你实在找不到你所需要的数据集,那么你不妨学学爬虫。在这里我会慢慢给大家介绍一些爬虫的相关知识。帮助大家爬虫快速入门。在后面我带着大家逐一了解requests模块、数据提取、高性能爬虫、selenium、反爬和反反爬、Scrapy框架以及Scrapy-redis分布式相关的知识。
万丈高楼平地起,咱们先来学习一下爬虫的相关基础。
爬虫的概念:
网络爬虫又称为网页蜘蛛,网络机器人。就是模拟客户端发送网络请求,接受请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。简而言之就是模拟浏览器,发送请求,获取响应,原则上只要是客户端(浏览器)能做的事情,爬虫都能做。但是爬虫也只能获取客户端所展示出来的数据。
爬虫的作用:
爬虫的作用有很多,他可以进行数据采集抓取网站里的文字图片以及音频信息。还可以用来做软件测试。像大家所熟知的抢票软件也是运用到了爬虫,以及一些大家所说的自动投票软件呀,以及微博的抽奖机器人呀,都是运用了爬虫。还有一种就是大家所深恶痛绝的短信轰炸了,我以前被轰炸过一次,简直就是手机不能开机给人烦的不行。
爬虫的分类:
根据被抓取网站的数量不同,可以分为通用爬虫(比如搜索引擎)和聚焦爬虫(针对于某一个或某一类网站的爬虫,比如12306抢票)
根据是否以获取数据为目的,可以分为功能性爬虫(投票,刷赞)和数据增量爬虫(比如招聘信息)
根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为基于url地址变化、内容也随之变化的数据增量爬虫和url地址不变,内容变化的数据增量爬虫
下面用一张图来概括:
爬虫的流程如下图:
1.获取一个url地址
2.向目标url地址发送请求,并获取响应
3.如果从响应中提取url地址,则继续发送请求获取响应
4.如果从响应中提取数据,则将数据进行保存
另外各位同学有时间可以复习一下http/https协议。对后面的学习有帮助
- 点赞
- 收藏
- 关注作者
评论(0)