- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

如何设置让网站禁止被爬虫收录？robots.txt

lxw1844912514 发表于 2022/03/27 03:35:33 2022/03/27

【摘要】 robot.txt只是爬虫禁抓协议，user-agent表示禁止哪个爬虫，disallow告诉爬出那个禁止抓取的目录。如果爬虫够友好的话，会遵守网站的robot.txt内容。一个内部业务系统，不想被爬虫收录。请问该如何做 linzhou0207 | 浏览 9607 次 ...

robot.txt只是爬虫禁抓协议，user-agent表示禁止哪个爬虫，disallow告诉爬出那个禁止抓取的目录。
如果爬虫够友好的话，会遵守网站的robot.txt内容。

一个内部业务系统，不想被爬虫收录。
请问该如何做

linzhou0207 | 浏览 9607 次问题未开放回答 |举报

发布于2016-07-05 19:47 最佳答案

网站建设好了，当然是希望网页被搜索引擎收录的越多越好，但有时候我们也会碰到网站不需要被搜索引擎收录的情况。


比如，要启用一个新的域名做镜像网站，主要用于PPC 的推广，这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话，很有可能会影响官网在搜索引擎的权重。

以下列举了屏蔽主流搜索引擎爬虫（蜘蛛）抓取/索引/收录网页的几种思路。注意：是整站屏蔽，而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫（蜘蛛）。


1、通过 robots.txt 文件屏蔽

可以说 robots.txt 文件是最重要的一种渠道（能和搜索引擎建立直接对话），给出以下建议：

User-agent: Baiduspider

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加，添加如下语句：



3、通过服务器（如：Linux/nginx ）配置文件设置

直接过滤 spider/robots 的IP 段。

小注：第1招和第2招只对“君子”有效，防止“小人”要用到第3招（“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots），所以网站上线之后要不断跟踪分析日志，筛选出这些 badbot 的ip，然后屏蔽之。

文章来源: blog.csdn.net，作者：lxw1844912514，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/lxw1844912514/article/details/100027288

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

如何设置让网站禁止被爬虫收录？robots.txt

robot.txt只是爬虫禁抓协议，user-agent表示禁止哪个爬虫，disallow告诉爬出那个禁止抓取的目录。 如果爬虫够友好的话，会遵守网站的robot.txt内容。

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

robot.txt只是爬虫禁抓协议，user-agent表示禁止哪个爬虫，disallow告诉爬出那个禁止抓取的目录。
如果爬虫够友好的话，会遵守网站的robot.txt内容。