JS逆向|某行业大佬对坑风控的一些经验总结
关注它,不迷路。
本文章中所有内容仅供学习交流,不可用于任何商业用途和非法用途,否则后果自负,如有侵权,请联系作者立即删除!
随着技术的不断演变,大厂也是不断的更新风控策略,让爬虫工程师们头疼不已。并发没几分钟,全挂了,都不知道是哪里的问题,比较搞心态。
风控的全称应该是风险控制,为了解决和预防将要发生,或者可能发生的一些危险情况,从而减轻损失。
看了惜老关于风控的文章,受益匪浅,链接:
https://bbs.pediy.com/thread-273838.htm
以及这篇文章:
https://bbs.pediy.com/thread-273759.htm
我也和 风和自由 聊了下关于风控对抗的思路,整理成文档,供大家参考:
1.风控还好,只要没有行为识别就简单
2.需要保证对单个线程的环境干净
3.ip最好是自建,因为有能识别代理的防水墙,然后账号也有办法,比如邮箱注册就自建邮箱服务器,批量注册账号等。
4.现在风控第一轮基本上是刷代理,指标高你一个都进不去,低的,同段代理一起来就可以识别其他请求是否为机器人
5.第二轮就是客户机环境,第三轮就是行为检测
6.第三轮通过他们的数据模型判定是不是机器人,还有记录你的行为样本给机器学习。这两个步骤是同步的。
7.代理有一个很好鉴别的办法,你请求过去,ipv4正常来说普通用户现在都没有外网地址,如果他们的风控指标高的话,同段ip超过一定数量,他们会对这个ip段进行端口扫描。数量超过百分之多少,整段拉黑。然后恰好,运营商开外网给vps的代理,都是整段开,这整段必然是代理。然后不管怎么拨号,这个地区本来就只能在这个段内来回横跳,不能超出去,然后时间久了,自然就全部拉稀。
8.基本上在代理上面这些风控花的心思太多了
9.一般风控都是玄学,他可能知道你是机器人,然后他不会立马给你弄死,他只是让你抢不到东西,其他一切正常,让你产生错觉。
10.外面那些人为啥说老号容易抢,其实不是老号容易抢,是因为老号有行为轨迹,有白名单,能少过几层风控。
11.从开发的角度来讲,每个网站的数据上报,经过数据清洗,最终就会整合同步到每个防护上面。只是看同步时间是多久,但是毋庸置疑他们是共享的
12.风控就是结合实际情况猜出来的,基本保证每个指标的干净,就没啥问题,除了行为检测,其他的都不智能,都是硬指标
13.风控是经验的累积,跟技术无关,反正风控就是一句话,你要保证能让服务端知晓的一切信息,都要保证他们的合理性
14.你提交的鼠标轨迹不仅要进ai模型,还要入库,每次你提交过去都会对比,不做干扰要百万条才行。就是在里面插抖动和回退,每次取出来都做,然后做等比缩放或者放大。当然,还有其他的干扰项,比如时间差值等。
某个做过风控大佬揭露的秘密:
1.现在很多风控 其实是没有风控,采用的都是随机拒绝的策略。
2.风控部门的利益一般和公司运营的指标是冲突的,只关心如何安慰客户少被投诉。
欢迎大家继续补充,有不对的地方还请指出。
欢迎加入知识星球,学习更多爬虫技巧。
文章来源: blog.csdn.net,作者:悦来客栈的老板,版权归原作者所有,如需转载,请联系作者。
原文链接:blog.csdn.net/qq523176585/article/details/126169346
- 点赞
- 收藏
- 关注作者
评论(0)