- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【第20篇】像人类一样阅读：自主、双向和迭代语言场景文本识别建模

AI浩发表于 2021/12/22 22:24:22 2021/12/22

【摘要】像人类一样阅读：自主、双向和迭代语言场景文本识别建模摘要语言知识对场景文本识别大有裨益。然而，如何在端到端深度网络中有效地建模语言规则仍然是一个研究挑战。在本文中，我们认为语言模型的有限能力来自...

像人类一样阅读：自主、双向和迭代语言场景文本识别建模

摘要

语言知识对场景文本识别大有裨益。然而，如何在端到端深度网络中有效地建模语言规则仍然是一个研究挑战。在本文中，我们认为语言模型的有限能力来自：1）隐式语言建模； 2) 单向特征表示；和 3) 带有噪声输入的语言模型。相应地，我们提出了一种用于场景文本识别的自主、双向和迭代的 ABINet。首先，自治建议阻止视觉和语言模型之间的梯度流，以明确执行语言建模。其次，提出了一种基于双向特征表示的新型双向完形填空网络（BCN）作为语言模型。第三，我们提出了一种语言模型迭代校正的执行方式，可以有效地减轻噪声输入的影响。此外，基于迭代预测的集合，我们提出了一种自训练方法，可以有效地从未标记的图像中学习。大量实验表明，ABINet 在低质量图像上具有优势，并在几个主流基准上取得了最先进的结果。此外，经过集成自训练训练的 ABINet 在实现人类级别的识别方面显示出有希望的改进。代码可在 https://github.com/FangShancheng/ABINet 获得。

1、简介

拥有从场景图像中读取文本的能力对于人工智能来说是必不可少的 [24, 41]。为此，早期的尝试将字符视为无意义的符号，并通过分类模型识别这些符号 [42, 15]。但是，当遇到遮挡、模糊、噪声等具有挑战性的环境时，由于视觉辨别力，它会变得模糊。幸运的是，由于文本带有丰富的语言信息，因此可以根据上下文推断字符。因此，一堆方法 [16, 14, 29] 将注意力转向语言建模，并取得了毋庸置疑的改进。

然而，如何有效地模拟人类

文章来源: wanghao.blog.csdn.net，作者：AI浩，版权归原作者所有，如需转载，请联系作者。

原文链接：wanghao.blog.csdn.net/article/details/121313548

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【第20篇】像人类一样阅读：自主、双向和迭代语言场景文本识别建模

像人类一样阅读：自主、双向和迭代语言场景文本识别建模

摘要

1、简介

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【第20篇】像人类一样阅读：自主、双向和迭代语言 场景文本识别建模

像人类一样阅读：自主、双向和迭代语言 场景文本识别建模

摘要

1、简介

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

【第20篇】像人类一样阅读：自主、双向和迭代语言场景文本识别建模

像人类一样阅读：自主、双向和迭代语言场景文本识别建模