文字识别服务(OCR)基于对抗样本的模型可信安全威胁分析初析

举报
谷雨润一麦 发表于 2020/03/02 10:20:23 2020/03/02
【摘要】 文字识别作为计算机视觉的重要分支之一,面临着视觉方向同样的安全威胁分析。随着人工智能的普及和文字识别服务大规模的商业落地,解决好相关的模型安全威胁问题已经刻不容缓。

image.png


OCR处理流程融合了多种图像处理技术。主要是包括图像预处理表格提取有没有表格进一步处理文字定位其中可能会有文字矫正文字识别文字后处理等最后返回给客户的是结构化的json数据。所有涉及模型的模块均可能遭遇模型可信威胁,比如表格提取模块、文字定位模块、文字识别模块等。


image.png



威胁模型可以分为两个方面,对抗目的和对抗知识。对抗目的包含在数据集中加入或修改成虚假样本的Poisoning Attack,模型已经固定,直接生成分类器会识别错误的对抗样本的Evasion Attack。对抗知识包含假设目标模型的所有信息都是已知的白盒,以及只知道输入输出的黑盒。



image.png



安全评估可以从鲁棒性,以及对抗风险等方面考虑。



image.png


对抗攻击的应对方法可以从以下几个方面考虑。(1)模型导数模糊策略:将模型的导数信息模糊化处理让攻击者无法得到正确的模型导数信息主要应对白盒攻击及灰盒攻击。例如模型蒸馏方法用多个模型来混淆攻击者使其无法得到模型准确的导数信息。该策略安全指数较低只能在一定程度上对抗攻击者。(2)鲁棒优化策略:通过改变模型的学习方法来提升模型的鲁棒性。主要方法包括增加正则化限制对抗式训练。(3)攻击样本检测:在实际使用中预先判断输入样本是否为攻击样本。



image.png



在“Fooling OCR Systems with Adversarial Text Images”论文中,将安全对抗等级分成四个等级。等级一:误导OCR系统随机误识别一些字符造成单词识别错误识别的单词可能不存在。等级二:误导OCR系统将某些单词识别成指定的反义词。等级三:在等级二的情况下句子依旧保证流畅。等级四:在等级二的情况下段落文本依旧保证流畅。


image.png



论文中的对抗流程主要分为三个阶段。第一阶段是确定需要攻击的图片根据其文本通过文本生成对抗模型得到对应的攻击文本确保攻击之后语义流畅。第二阶段是根据攻击文本确定需要修改的单词。第三阶段是使用文本图片生成对抗模型生成攻击图片。



image.png



攻击难点主要包含两方面,(1)要求可以获得整个OCR模型参数预处理、后处理等过程。(2)OCR任务相对于图片分类任务来说由于存在RNN网络存在上下文语义的纠正能力因此更难直接影响识别。


image.png


攻击结果也可以从字段效果和整文效果来看。


Reference

[1].Congzheng Song and Vitaly Shmatikov (2018). Fooling OCR Systems with Adversarial Text Images. CoRR, abs/1802.05385.

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。