字体反爬
【摘要】 字体反爬介绍
所谓的字体反爬就是网站将一些关键字替换为网站自己的字体,这样在网页上字体会正常显示,但是当爬取下来的时候,经过字体加密的字符都是乱码的,在网页源码当中显示的是unicode编码。根本无法查看。
例如:
破解思路
第一步 找到对应的字体文件进行下载
第二步 找到unicode编码和正常文字的映射关系
第三步 自定义unicode编码正常蚊子的映...
字体反爬介绍
所谓的字体反爬就是网站将一些关键字替换为网站自己的字体,这样在网页上字体会正常显示,但是当爬取下来的时候,经过字体加密的字符都是乱码的,在网页源码当中显示的是unicode编码。根本无法查看。
例如:
破解思路
第一步 找到对应的字体文件进行下载
第二步 找到unicode编码和正常文字的映射关系
第三步 自定义unicode编码正常蚊子的映射关系的字典
第四步 替换源码当中的unicode编码为正常文字之后,再进行数据匹配
FontTools安装与使用
FontTools是一套以ttx为核心的工具集,用于处理与字体编辑有关的各种问题,程序用Python编写完成,代码开源,具有良好的跨平台性。
安装及使用
pip install fontTools
通过FontTools把woff文件转换为xml文件
font = TTFont(BytesIO(bin_data))
#将解码字体保存为xml
font.saveXML("text2.xml")
- 1
- 2
- 3
- 4
lxml解析xml文件
lxml可以直接读取xml文件。
为了演示方便,
文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。
原文链接:maoli.blog.csdn.net/article/details/89165985
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)