论文解读系列十二:SDMG-R结构化提取—无限版式小票场景应用

一笑倾城 发表于 2021/06/07 17:28:22 2021/06/07
【摘要】 在文档图像中提取关键信息在自动化办公应用中至关重要。传统基于模板匹配或者规则的方法,在通用性方面、未见过版式模板数据方面,效果都不好;为此,本文提出了一种端到端的空间多模态图推理模型(SDMG-R),能有效的从未见过的模板数据中提取关键信息,并且通用性更好。

【摘要】在文档图像中提取关键信息在自动化办公应用中至关重要。传统基于模板匹配或者规则的方法,在通用性方面、未见过版式模板数据方面,效果都不好;为此,本文提出了一种端到端的空间多模态图推理模型(SDMG-R),能有效的从未见过的模板数据中提取关键信息,并且通用性更好。

源码:https://github.com/open-mmlab/mmocr/tree/4882c8a317cc0f59c96624ce14c8c10d05fa6dbc

1       背景

       在文档图像中提取关键信息在办公自动化应用中至关重要,比如常见的存档文件、收据小票、信用表单等数据场景快速自动化归档、合规性检查等等。传统基于模板匹配或者规则的方法,主要利用的固定版式模板数据的布局、位置坐标信息、内容规则等,这些信息局限性很强,因此在通用性方面、未见过版式模板数据方面,效果都不好。为此,本文提出了一种端到端的空间多模态图推理模型(SDMG-R),能充分利用检测文本区域的位置布局、语义、视觉信息,相比之前获取的信息的更充分丰富,因此能有效的从未见过的模板数据中提取关键信息,并且通用性更好。 

2       创新方法及亮点

2.1   数据

         在之前的关键信息抽取任务中,常用的数据集大部分是SROIEIEHHR,但是他们训练集、测试集有很多公共模板版式,因此不太适合去评估或验证通用信息提取模型的通用能力;基于以上原因,本文构建一套新的关键信息抽取任务的数据集,并命名为WildReceipt:由25个类别组成,大概有50000个文本区域,数据量是SROIE的两倍以上,详细信息如下表格2-1所示:

2-1 关键信息抽取任务数据集

2.2   创新点及贡献

        本文提出的SDMG-RSROIE数据集和WildReceipt数据集上都获得比较好的效果,并优于之前的方法模型。本文作者还去做了相关消融实验,并验证了本文提出的空间关系信息和多模态特征都对关键信息提取有着非常重要的影响。具体创新及贡献如下:

  • 提出了一种有效的空间多模态图推理网络(SDMG-R),能充分利用文本区域的语义、视觉两个维度的空间特征关系信息;
  • 构建了一套基准数据集(WildReceipt),是SROIE数据量的两倍,而且训练集版式模板和测试集版式模板交叉很少,因此可以用来做些通用关键信息抽取任务的探索研究;
  • 本文利用了视觉、语义特征,如何利用好两者数据,本文做了相关验证:特征融合方法的有效性(CONCAT、线性求和、克罗内克积),最终结果克罗内克积比其他两种特征融合方法高两个点左右,如下表格2-2所示:

2-2 特征融合方法对比结果

3       网络结构

        SDMG-R模型整个网络结构如下图3-1所示,模型输入数据由图片、对应文本检测坐标区域、对应文本区域的文本内容,视觉特征通过UnetROI-Pooling进行提取,语义特征通过Bi-LSTM进行提取,然后多模态特征通过克罗内克积进行融合语义、视觉特征,然后再输入到空间多模态推理模型提取最终的节点特征,最后通过分类模块进行多分类任务;

3-1 SDMG-R网络结构

3.1 视觉特征提取详细步骤:

    1. 输入原始图片,resize到固定输入尺寸(本文512x512);
    2. 输入到Unet,使用Unet作为视觉特征提取器,获取得到CNN最后一层的特征图;
    3. 将输入尺寸的文本区域坐标()映射到最后一层CNN特征图,通过ROI-pooling方法进行特征提取,获取对应文本区域图像的视觉特征;

3.2 文本语义特征提取详细步骤:

    1. 首先收集字符集表,本文收集了91个长度字符表,涵盖数字(0-9)、字母(a-zA-Z)、相关任务的特殊字符集(如“/”, “n”, “.”, “$”, “AC”, “ ”, “¥”, “:”, “-”, “*”, “#”等),不在字符表的字符统一标记成“unkown”;
    2. 其次,然后将文本字符内容映射到32维度的one-hot语义输入的编码形式;
    3. 然后输入到Bi-LSTM模型中,提取256维度语义特征;

3.3 视觉+文本语义特征融合步骤:

    1. 多模态特征融合:通过克罗内克积进行特征融合,具体公式如下:


         代表的是克罗内克积的操作,是一个可学习的线性转换,代表的是融合的特征。

3.4 空间关系多模态图推理模型:

        最终的节点特征通过多模态图推理模型完成,公式如下:


代表的是所有文本节点的特征向量(视觉+语义),是节点与节点之间边的权重,空间关系编码通过如下公式计算得到:


分别是节点与节点之间的相对水平距离、相对垂直距离,是归一化常量,是一个concatenation操作,代表的是节点i与节点j之间的相对空间位置距离的编码形式;可视化图推理节点的边的权重,如下图3-2所示

3.5  多分类任务模块

       根据图推理模型获取节点的特征,最后输入到分类模块,通过多分类任务输出最终的实体分类结果,损失函数使用的是交叉熵损失,公式如下:

4       实验结果

        在SROIE数据集的结果如下表4-1所示:

4-1 SROIE的精度

        在WildReceipt测试集的结果如下表4-2所示:

4-2 WildReceipt的精度

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。