【第20篇】像人类一样阅读:自主、双向和迭代语言 场景文本识别建模

AI浩 发表于 2021/12/22 22:24:22 2021/12/22
【摘要】 像人类一样阅读:自主、双向和迭代语言 场景文本识别建模 摘要 语言知识对场景文本识别大有裨益。然而,如何在端到端深度网络中有效地建模语言规则仍然是一个研究挑战。在本文中,我们认为语言模型的有限能力来自...

像人类一样阅读:自主、双向和迭代语言 场景文本识别建模

摘要

语言知识对场景文本识别大有裨益。然而,如何在端到端深度网络中有效地建模语言规则仍然是一个研究挑战。在本文中,我们认为语言模型的有限能力来自:1)隐式语言建模; 2) 单向特征表示;和 3) 带有噪声输入的语言模型。相应地,我们提出了一种用于场景文本识别的自主、双向和迭代的 ABINet。首先,自治建议阻止视觉和语言模型之间的梯度流,以明确执行语言建模。其次,提出了一种基于双向特征表示的新型双向完形填空网络(BCN)作为语言模型。第三,我们提出了一种语言模型迭代校正的执行方式,可以有效地减轻噪声输入的影响。此外,基于迭代预测的集合,我们提出了一种自训练方法,可以有效地从未标记的图像中学习。大量实验表明,ABINet 在低质量图像上具有优势,并在几个主流基准上取得了最先进的结果。此外,经过集成自训练训练的 ABINet 在实现人类级别的识别方面显示出有希望的改进。代码可在 https://github.com/FangShancheng/ABINet 获得。

1、简介

拥有从场景图像中读取文本的能力对于人工智能来说是必不可少的 [24, 41]。 为此,早期的尝试将字符视为无意义的符号,并通过分类模型识别这些符号 [42, 15]。 但是,当遇到遮挡、模糊、噪声等具有挑战性的环境时,由于视觉辨别力,它会变得模糊。 幸运的是,由于文本带有丰富的语言信息,因此可以根据上下文推断字符。 因此,一堆方法 [16, 14, 29] 将注意力转向语言建模,并取得了毋庸置疑的改进 。

然而,如何有效地模拟人类

文章来源: wanghao.blog.csdn.net,作者:AI浩,版权归原作者所有,如需转载,请联系作者。

原文链接:wanghao.blog.csdn.net/article/details/121313548

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。