通过 User-Agent 识别爬虫的原理、实践与对应的绕过方法

举报
我们都是云专家 发表于 2019/09/06 17:12:48 2019/09/06
【摘要】 『反爬虫技术』是互联网技术中为了限制爬虫而产生的技术总称,而反爬虫的绕过则是所有爬虫工程师要面对的问题,也是中高级爬虫工程师面试中最关注的方面。

20190906ly00032.PNG

开篇

随着 Python 和大数据的火热,大量的工程师蜂拥而上,爬虫技术由于易学、效果显著首当其冲的成为了大家追捧的对象,爬虫的发展进入了高峰期,因此给服务器带来的压力则是成倍的增加。企业或为了保证服务的正常运转或为了降低压力与成本,不得不使出各种各样的技术手段来阻止爬虫工程师们毫无节制的向服务器索取资源,我们将这种行为称为『反爬虫』。

20190906ly00033.PNG

『反爬虫技术』是互联网技术中为了限制爬虫而产生的技术总称,而反爬虫的绕过则是所有爬虫工程师要面对的问题,也是中高级爬虫工程师面试中最关注的方面。

问题所在

20190906ly00034.PNG

但是在平时的交流中,笔者发现大多数的初级爬虫工程师只会拿着网上别人写的技术文章唾沫横飞,除了知道在请求的时候伪造浏览器请求头信息中的 User-Agent 以外,对于:

  • 为什么要这么做?

  • 这么做有什么好处?

  • 我可以用别的方法实现么?

  • 它的原理是怎么样的?

  • 它是如何识别我的爬虫的?

  • 我应该用什么方式绕过它?

一无所知。如果你既不知道原理又不知道实现方式,那么当目标网站稍微调整一下反爬虫策略的时候,你还是一脸懵逼

对,就是一脸懵逼。

作者心声

我也在尝试着,能够将这样的知识分享出来,让大家在闲暇之余能够通过这篇文章学习到反爬虫知识中比较简单的反爬虫原理和实现方法,再熟悉他的绕过操作。比如 User-Agent 反爬手段,了解它的原理并且亲手实现反爬虫,再亲手绕过它。或许通过这个小小的案例,就可以打开你思维的大门、撬开你思路的下水道。

20190906ly00035.PNG

作者:云享专家韦世东
来源:掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。