字体反爬

举报
毛利 发表于 2021/07/15 09:07:07 2021/07/15
【摘要】 字体反爬介绍 所谓的字体反爬就是网站将一些关键字替换为网站自己的字体,这样在网页上字体会正常显示,但是当爬取下来的时候,经过字体加密的字符都是乱码的,在网页源码当中显示的是unicode编码。根本无法查看。 例如: 破解思路 第一步 找到对应的字体文件进行下载 第二步 找到unicode编码和正常文字的映射关系 第三步 自定义unicode编码正常蚊子的映...

字体反爬介绍

所谓的字体反爬就是网站将一些关键字替换为网站自己的字体,这样在网页上字体会正常显示,但是当爬取下来的时候,经过字体加密的字符都是乱码的,在网页源码当中显示的是unicode编码。根本无法查看。

例如:
image

破解思路

第一步 找到对应的字体文件进行下载

第二步 找到unicode编码和正常文字的映射关系

第三步 自定义unicode编码正常蚊子的映射关系的字典

第四步 替换源码当中的unicode编码为正常文字之后,再进行数据匹配

FontTools安装与使用

FontTools是一套以ttx为核心的工具集,用于处理与字体编辑有关的各种问题,程序用Python编写完成,代码开源,具有良好的跨平台性。

安装及使用

pip install fontTools

通过FontTools把woff文件转换为xml文件
font = TTFont(BytesIO(bin_data))
#将解码字体保存为xml
font.saveXML("text2.xml")

  
 
  • 1
  • 2
  • 3
  • 4

lxml解析xml文件

lxml可以直接读取xml文件。
为了演示方便,

文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。

原文链接:maoli.blog.csdn.net/article/details/89165985

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。