文字识别服务(OCR)基于对抗样本的模型可信安全威胁分析初析
OCR处理流程融合了多种图像处理技术。主要是包括图像预处理表格提取有没有表格进一步处理文字定位其中可能会有文字矫正文字识别文字后处理等最后返回给客户的是结构化的json数据。所有涉及模型的模块均可能遭遇模型可信威胁,比如表格提取模块、文字定位模块、文字识别模块等。
威胁模型可以分为两个方面,对抗目的和对抗知识。对抗目的包含在数据集中加入或修改成虚假样本的Poisoning Attack,模型已经固定,直接生成分类器会识别错误的对抗样本的Evasion Attack。对抗知识包含假设目标模型的所有信息都是已知的白盒,以及只知道输入输出的黑盒。
安全评估可以从鲁棒性,以及对抗风险等方面考虑。
对抗攻击的应对方法可以从以下几个方面考虑。(1)模型导数模糊策略:将模型的导数信息模糊化处理让攻击者无法得到正确的模型导数信息主要应对白盒攻击及灰盒攻击。例如模型蒸馏方法用多个模型来混淆攻击者使其无法得到模型准确的导数信息。该策略安全指数较低只能在一定程度上对抗攻击者。(2)鲁棒优化策略:通过改变模型的学习方法来提升模型的鲁棒性。主要方法包括增加正则化限制对抗式训练。(3)攻击样本检测:在实际使用中预先判断输入样本是否为攻击样本。
在“Fooling OCR Systems with Adversarial Text Images”论文中,将安全对抗等级分成四个等级。等级一:误导OCR系统随机误识别一些字符造成单词识别错误识别的单词可能不存在。等级二:误导OCR系统将某些单词识别成指定的反义词。等级三:在等级二的情况下句子依旧保证流畅。等级四:在等级二的情况下段落文本依旧保证流畅。
论文中的对抗流程主要分为三个阶段。第一阶段是确定需要攻击的图片根据其文本通过文本生成对抗模型得到对应的攻击文本确保攻击之后语义流畅。第二阶段是根据攻击文本确定需要修改的单词。第三阶段是使用文本图片生成对抗模型生成攻击图片。
攻击难点主要包含两方面,(1)要求可以获得整个OCR模型参数预处理、后处理等过程。(2)OCR任务相对于图片分类任务来说由于存在RNN网络存在上下文语义的纠正能力因此更难直接影响识别。
攻击结果也可以从字段效果和整文效果来看。
Reference
[1].Congzheng Song and Vitaly Shmatikov (2018). Fooling OCR Systems with Adversarial Text Images. CoRR, abs/1802.05385.
- 点赞
- 收藏
- 关注作者
评论(0)