《Robots协议漏洞详解》

举报
士别三日wyx 发表于 2021/12/31 20:32:15 2021/12/31
【摘要】 隔壁大娘看着光秃秃的菜园彻底呆住了,冲到狗剩家门口骂了三天三夜,丝毫没有要走的意思,狗剩忍无可忍,拿出电脑在大娘的农场搜索了好久,竟然找到了大娘私藏的照片。狗剩:大娘,您跟隔壁王叔。。。@TOC 二、Robots协议简介 1、什么是Robots协议Robots协议全称是Robots Exclusion Standard,翻译成中文就是【网络爬虫排除协议】,别名:爬虫协议,机器人协议等。 Ro...

隔壁大娘看着光秃秃的菜园彻底呆住了,冲到狗剩家门口骂了三天三夜,丝毫没有要走的意思,狗剩忍无可忍,拿出电脑在大娘的农场搜索了好久,竟然找到了大娘私藏的照片。
狗剩:大娘,您跟隔壁王叔。。。

在这里插入图片描述
@TOC

二、Robots协议简介

1、什么是Robots协议

Robots协议全称是Robots Exclusion Standard,翻译成中文就是【网络爬虫排除协议】,别名:爬虫协议,机器人协议等。 Robots协议依靠 robots.txt 文件来【制定爬虫访问的规则】,其本质上是一个文本文件,这个文本文件规定了网站中哪些内容可被爬取,哪些内容不可以被爬取。
需要注意的是,robots.txt必须放在 网站的根目录 下,并且文件的名字必须全部小写

2、初识网络爬虫

我们平时在百度上搜索的内容,实际上是百度的 【搜索引擎】 利用 【网络爬虫】 爬取到的内容,当爬虫访问一个站点的时候,首先会检查站点的根目录下是否存在robots.txt文件,
如果存在这个文件,爬虫就会 按照文件中的规则来确定访问的内容
如果没有这个文件,爬虫 默认能够访问网站上的所有内容

3、为什么要使用Robots协议

出于 【网络安全】 的考虑,每个网站都需要设置自己的Robots协议规则,来表明哪些内容愿意被搜索引擎收录,哪些内容禁止被爬取。Robots协议代表一种 网站的根目录 契约精神,所有网站都应该遵守这一约定,以保证网站以及用户的隐私数据不被泄露。

三、Robots协议漏洞利用

1、如何查看网站的Robots协议

我们就拿平时最常用的百度来举例,这种大型的正规网站肯定会使用Robots协议,首先我们输入 www.baidu.com,进入百度的首页

在这里插入图片描述
接下来,我们在地址栏中追加输入 /robots.txt

在这里插入图片描述

因为robots.txt必须放在网站的根目录下,所以我们直接在域名后面输入文件名就可以了,这个操作本质上是访问 robots.txt这个文件,由于是纯文本文件,所以访问时不会执行文件,而会展示文件中的内容(如果是程序文件则会执行文件中的代码,而不是展示文件内容)

2、Robots协议内容解析

Robots协议的内容需要写在robots.txt文件中,格式是: 【协议头】:【空格】【协议头内容】,常见的协议头有以下几个

  • User-agent: 爬虫名
  • Disallow: 禁止访问的路径
  • Allow: 允许访问的路径
  • Sitemap: 网站地图

比如,禁止百度的爬虫爬取网站指定目录可以这样写
在这里插入图片描述
网站通常会采用【黑名单】的方式来标明禁止爬取的内容,而没有标明是否可以爬取的内容默认可以被爬取

3、网站对Robots协议的利用方式

爬虫协议的主要作用是规定 哪些文件不能被爬虫爬取 ,不希望被爬取的文件大致有两种可能:一种是 【无意义的文件】,禁止JS、CSS、图片等资源型文件,这种文件即使被爬取了也没有任何意义,禁止被爬取反而可以节省服务器的资源;还有一种就是 【敏感文件】,这也是采用Robots协议的主要目的,网站出于对安全和隐私的考虑,会禁止一些敏感文件被被浏览器爬取;

4、Robots协议漏洞利用

需要注意的是: 【不能被爬取不代表不能被访问!】,网站在禁止访问的路径中标识了不希望被访问的敏感文件,殊不知,这一操作变相的告诉了用户敏感文件的所在位置,用户根据路径访问敏感文件即可获取网站的敏感数据。比如访问配置文件,查看配置文件的内容,根据网站的不当配置进行漏洞利用;或者在日志文件中传入一句话木马,访问日志文件来连接网站后门,获取网站权限等等。利用这些漏洞(为了能过审,这里就不进行实际的演示了),非法用户可以轻易的获取数据库中的信息,包括 用户的手机号,家庭住址,购物信息等敏感信息

在这里插入图片描述

总结

Robots协议本是用来保护网站和用户隐私数据的准则,但总有一些 【年轻人不讲武德】,反向利用防护规则来窃取用户隐私数据。虽然网络安全的圈子不乏各种灰产,以及高调宣传自己是黑客的脚本小子,但不可否认,这个圈子仍有不少人保持着 【举世皆浊我独清,众人皆醉我独醒】的心态,努力磨砺技术,提升自身修养,让互联网变得更加安全。
本期内容旨在提高大家的网络安全意识,动歪脑筋的同学请在心里默念三遍 【我国有一部完整且历史悠久的法律】

在这里插入图片描述

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。