- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

论文解读系列八：文字识别中基于Transformer识别方法之 HGA-STR 简介

谷雨润一麦发表于 2020/10/09 10:28:33 2020/10/09

【摘要】受Transformer模型的启发，目前一些学者将该结构应用到文本行识别中，以替代RNN，取得了良好的效果，如HGA-STR。总体上，HGA-STR更接近原有的Transformer的结构，使用了和Transformer类似的解码结构。

对于不规则文本，文本分布在二维空间上，将其转换成一维有一定难度，同时基于RNN的编码解码器无法做到并行，本文直接将2D的特征输入到attention-based 1D序列解码器，解码器采用Transformer中的解码器同样的结构。同时，在编码器部分，提取一个全局语义向量，与解码器的输入embedding向量合并，为解码器提供全局语义信息。该模型结构如图1所示。

图 1. 模型的基本结构

编码器介绍：该模型使用CNN进行特征提取，并保持输出的特征为二维。并使用池化操作得到一维向量，作为全局信息表示。

解码器介绍：编码器主要组件有：masked self-attention用来建模预测结果的依赖性；2Dattention用来连接编码器和解码器；以及一个前馈层。具体实现和Transformer文中的结构相同。同时为了更好的性能作者使用两个方向进行解码，结构如图2所示。

图 2.该方法使用双向解码器

该方法在多个英文基准数据集取得了较好的结果，具体结果可参见论文。在速度上作者和两种基于attention的方法进行对比有一定的优势，如表1所示。

表 1. 速度对比

在作者进行的对比试验中，一个比较有意思的现象是，在编码器里面添加Self-attention模块并不能提升模型性能，在解码器中添加才会对结果有提升，如表2所示。这表明原本的Transformer结构直接应用到文字识别任务上是不可行的，需要做相应的调整。

表 2. Self-attention性能对比

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

论文解读系列八：文字识别中基于Transformer识别方法之 HGA-STR 简介

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

论文解读系列八：文字识别中基于Transformer识别方法之 HGA-STR 简介

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品