【产品技术】反爬虫防御
【摘要】 Web应用防火墙(Web Application Firewall,简称WAF),针对Web攻击进行防护,例如:XSS(跨站脚本攻击)、Sql注入、Webshell上传等,其中爬虫防护是针对业务网站遇到的爬虫问题进行防护的策略。当业务服务有高价值的图片、价格及其他信息,不希望被爬虫任意抓取时,可考虑反爬虫相关的策略和配置。爬虫对抗是一个复杂的过程,Web应用防火墙可以从几个方面进行爬虫防护:...
Web应用防火墙(Web Application Firewall,简称WAF),针对Web攻击进行防护,例如:XSS(跨站脚本攻击)、Sql注入、Webshell上传等,其中爬虫防护是针对业务网站遇到的爬虫问题进行防护的策略。
当业务服务有高价值的图片、价格及其他信息,不希望被爬虫任意抓取时,可考虑反爬虫相关的策略和配置。爬虫对抗是一个复杂的过程,Web应用防火墙可以从几个方面进行爬虫防护:
User-Agent识别。
浏览器合法性检查。
访问频率限制。
针对这三点WAF分别有Robot检测、网站反爬虫、CC攻击防护等策略可以实现。
防护配置
配置防护策略
确认Robot检测开关为打开状态
开启了Web基础防护中的Robot检测开关。当恶意爬虫、扫描器等对站点进行爬取时,可以看到下面的防护日志
如果业务接口没有API调用、且没有接入CDN等缓存服务,可开启网站反爬虫功能。
该特性依赖浏览器对javascript代码的解析,因此如果业务接口存在API调用的场景,不建议开启本特性,此外,由于CDN服务会缓存图片、静态资源等文件,因此爬虫请求很可能直接在CDN返回给用户,WAF侧的策略无法达到预想的效果。
开启了网站反爬虫。非浏览器的访问将不能获取业务页面。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)