- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

网站使用 robots.txt 中常见的误区

iCoA首席特工发表于 2018/11/24 18:19:03 2018/11/24

【摘要】大家都知道网站可以使用 robots.txt 来控制蜘蛛的抓取，其实我们在使用过程中会有很多误区：今天列举一下常见的robots.txt实际使用中的误区：误区1.Allow包含的范围超过Disallow，并且位置在Disallow前面。比如有很多人这样写：User-agent: *Allow: /Disallow: /mulu/想让所有蜘蛛抓取本站除/mulu/下面的url之外的所有页面，禁...

大家都知道网站可以使用 robots.txt 来控制蜘蛛的抓取，其实我们在使用过程中会有很多误区：

今天列举一下常见的robots.txt实际使用中的误区：

误区1.Allow包含的范围超过Disallow，并且位置在Disallow前面。

比如有很多人这样写：

User-agent: *
Allow: /
Disallow: /mulu/

想让所有蜘蛛抓取本站除/mulu/下面的url之外的所有页面，禁止抓取/mulu/下面的所有url。

搜索引擎蜘蛛执行的规则是从上到下，这样会造成第二句命令失效。也就是说禁止抓取/mulu/目录这条规则是无效的。正确的是Disallow应该在Allow之上，这样才会生效。

误区2.Disallow命令和Allow命令之后没有以斜杠”/”开头。

这个也很容易被忽视，比如有人这样写Disallow: 123.html ，这种是没有效果的。斜杠”/”表示的是文件对于根目录的位置，如果不带的话，自然无法判断url是哪个，所以是错误的。

正确的应该是Disallow: /123.html，这样才能屏蔽/123.html这个文件，这条规则才能生效。

误区3.屏蔽的目录后没有带斜杠”/”。

也就是比如想屏蔽抓取/mulu/这个目录，有些人这样写Disallow: /mulu。那么这样是否正确呢？

首先这样写（Disallow: /mulu）确实可以屏蔽/mulu/下面的所有url，不过同时也屏蔽了类似/mulu123.html这种开头为/mulu的所有页面，效果等同于Disallow: /mulu*。

正确的做法是，如果只想屏蔽目录，那么必须在结尾带上斜杠”/”。

暂时先写这几条，以后遇到了其他的随时补充

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

网站使用 robots.txt 中常见的误区

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品