CDistNet: Perceiving Multi-Domain Character Distance

举报
谷雨润一麦 发表于 2022/04/19 11:53:41 2022/04/19
【摘要】 本文提出通过位置编码,分别对视觉特征和语义特征进行对齐,避免了来自不同域的两个特征直接对齐所带来的困难,缓解了注意力偏移的现象。

【摘要】本文提出通过位置编码,分别对视觉特征和语义特征进行对齐,避免了来自不同域的两个特征直接对齐所带来的困难,缓解了注意力偏移的现象。


摘要:得益于同时考虑了图像的视觉特征和文字的语义特征,基于注意力机制的编码-解码结构成为了当前场景文字识别的主要结构。但是最近的一些研究表明,属于不同域的视觉特征和语义特征存在对齐困难的问题。本文提出位置编码,分别对视觉特征和语义特征进行对齐,从而减轻了直接对齐所带来的困难。实验结果显示,CDistNet可以达到目前最好的性能。并且从可视化的结果来看,该方法确实得到了更准确的注意力权重。

方法



         方法的流程图如上图所示,沿用常见的编码器-解码器结构。其中,编码器包括三个分支,分别是视觉编码、位置编码和语义编码。解码器将编码器的三种输出通过提出的MDCDP模块进行融合,在该模块中,位置编码分别对视觉和语义特征进行对齐和增强,将最终得到的特征用于识别的分类。

        

具体来说,MDCDP首先采用了上图左的方式进行视觉特征和语义特征的对齐;然后采用上图右的方式进行两种模态特征的融合。

实验结果

 

         上表左对MDCDP中的三个分支分别使用self-attention进行特征增强,可以看出来,只对位置编码进行特征增强可以得到最好的结果,可能是因为在编码器阶段,视觉特征和语义特征都进行较强的特征表示,但是位置特征没有。

         上表右对MDCDP中的三个分支的交互类型进行了讨论,可以发现,将位置特征分别对视觉特征和语义特征进行对齐的方式,性能最好。这也验证了该论文的观点,即视觉特征和语义特征很难直接进行对齐,使用中间变量位置特征进行对齐更加合适。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。