AI-数据采集-爬虫基础(一)

举报
咔吧咔吧 发表于 2020/10/21 15:05:39 2020/10/21
【摘要】 对于开发者而言,数据采集是开发人工智能应用时面临的首要问题。数据采集的内容涉及图像、视频、音频、结构化表格数据以及环境信息。数据采集是数据管理的起始环节,一般而言,数据越多越丰富,算法所达到的效果越好。尤其是对于深度学习而言,数据量越大,模型表现一般越好。 那么我们从哪里得到这么多数据呢?如果你实在找不到你所需要的数据集,那么你不妨学学爬虫。在这里我会慢慢给大家介绍一些爬虫的相...

    对于开发者而言,数据采集是开发人工智能应用时面临的首要问题。数据采集的内容涉及图像、视频、音频、结构化表格数据以及环境信息。数据采集是数据管理的起始环节,一般而言,数据越多越丰富,算法所达到的效果越好。尤其是对于深度学习而言,数据量越大,模型表现一般越好。

    那么我们从哪里得到这么多数据呢?如果你实在找不到你所需要的数据集,那么你不妨学学爬虫。在这里我会慢慢给大家介绍一些爬虫的相关知识。帮助大家爬虫快速入门。在后面我带着大家逐一了解requests模块、数据提取、高性能爬虫、selenium、反爬和反反爬、Scrapy框架以及Scrapy-redis分布式相关的知识。

    万丈高楼平地起,咱们先来学习一下爬虫的相关基础。


    爬虫的概念:

    网络爬虫又称为网页蜘蛛,网络机器人。就是模拟客户端发送网络请求,接受请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。简而言之就是模拟浏览器,发送请求,获取响应,原则上只要是客户端(浏览器)能做的事情,爬虫都能做。但是爬虫也只能获取客户端所展示出来的数据。


    爬虫的作用:

    爬虫的作用有很多,他可以进行数据采集抓取网站里的文字图片以及音频信息。还可以用来做软件测试。像大家所熟知的抢票软件也是运用到了爬虫,以及一些大家所说的自动投票软件呀,以及微博的抽奖机器人呀,都是运用了爬虫。还有一种就是大家所深恶痛绝的短信轰炸了,我以前被轰炸过一次,简直就是手机不能开机给人烦的不行。


    爬虫的分类:

    根据被抓取网站的数量不同,可以分为通用爬虫(比如搜索引擎)和聚焦爬虫(针对于某一个或某一类网站的爬虫,比如12306抢票)

    根据是否以获取数据为目的,可以分为功能性爬虫(投票,刷赞)和数据增量爬虫(比如招聘信息)

    根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为基于url地址变化、内容也随之变化的数据增量爬虫和url地址不变,内容变化的数据增量爬虫

    下面用一张图来概括:

image.png

    爬虫的流程如下图:

                image.png

    1.获取一个url地址

    2.向目标url地址发送请求,并获取响应

    3.如果从响应中提取url地址,则继续发送请求获取响应

    4.如果从响应中提取数据,则将数据进行保存


    另外各位同学有时间可以复习一下http/https协议。对后面的学习有帮助

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。