【第20篇】像人类一样阅读:自主、双向和迭代语言 场景文本识别建模
像人类一样阅读:自主、双向和迭代语言 场景文本识别建模
摘要
语言知识对场景文本识别大有裨益。然而,如何在端到端深度网络中有效地建模语言规则仍然是一个研究挑战。在本文中,我们认为语言模型的有限能力来自:1)隐式语言建模; 2) 单向特征表示;和 3) 带有噪声输入的语言模型。相应地,我们提出了一种用于场景文本识别的自主、双向和迭代的 ABINet。首先,自治建议阻止视觉和语言模型之间的梯度流,以明确执行语言建模。其次,提出了一种基于双向特征表示的新型双向完形填空网络(BCN)作为语言模型。第三,我们提出了一种语言模型迭代校正的执行方式,可以有效地减轻噪声输入的影响。此外,基于迭代预测的集合,我们提出了一种自训练方法,可以有效地从未标记的图像中学习。大量实验表明,ABINet 在低质量图像上具有优势,并在几个主流基准上取得了最先进的结果。此外,经过集成自训练训练的 ABINet 在实现人类级别的识别方面显示出有希望的改进。代码可在 https://github.com/FangShancheng/ABINet 获得。
1、简介
拥有从场景图像中读取文本的能力对于人工智能来说是必不可少的 [24, 41]。 为此,早期的尝试将字符视为无意义的符号,并通过分类模型识别这些符号 [42, 15]。 但是,当遇到遮挡、模糊、噪声等具有挑战性的环境时,由于视觉辨别力,它会变得模糊。 幸运的是,由于文本带有丰富的语言信息,因此可以根据上下文推断字符。 因此,一堆方法 [16, 14, 29] 将注意力转向语言建模,并取得了毋庸置疑的改进 。
然而,如何有效地模拟人类
文章来源: wanghao.blog.csdn.net,作者:AI浩,版权归原作者所有,如需转载,请联系作者。
原文链接:wanghao.blog.csdn.net/article/details/121313548
- 点赞
- 收藏
- 关注作者
评论(0)