- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

论文解读系列十三：全局信息对于图网络文档解析的影响

一笑倾城发表于 2021/06/17 09:55:51 2021/06/17

【摘要】文档理解着重于从非结构化文档中识别并提取键值对信息，并将其输出为结构化数据。在过往的信息提取中，大多数工作仅仅只关注于提取文本的实体关系，因此并不适用于直接用于文档理解上。

1 背景介绍

文档理解着重于从非结构化文档中识别并提取键值对信息，并将其输出为结构化数据。在过往的信息提取中，大多数工作仅仅只关注于提取文本的实体关系，并不适用于直接用于文档理解上。

在ICDAR2019的比赛上，参赛者被要求从发票收据等文档中提取键值对信息。因此本文提出了一种包含了全局信息，并且结合了视觉信息的图网络结构，来完成从非结构化文档中提取关键信息的任务。

2 网络结构

本文将文档理解任务转化为图节点分类任务。对于文本的全局和局部信息获取：

使用CLS抓取全局文本序列的分类信息，生成w0，并将其与每个单独文本(w1,w2…,wn)放在同一输入向量中。经过BERT模型，独立地对每个元素进行编码，这样模型拥有了局部和全局信息，同时也能对全局和局部文本进行embedding

对于图片的全局和局部信息获取：使用的是相似的方法，不过是基于CNN网络来捕捉全局和局部的图像特征

文本和图像特征拼接：将图像特征和文本特征进行特征融合（concat）

网络构建：

给定文档内的一组文本段，构建一个虚拟的全局节点作为信息沟通枢纽，这样每两个非相邻节点之间也是two-hop neighbors, 减少信息沟通损失的同时全局信息也能很直接输出到局部节点上。

聚合邻居使得每一个节点与two-hop neighbors两两之间通过激活函数（leaky-relu）进行模型参数更新，并且使用了K-attention来提高模型的能力（通过多个attention然后合并所有attention的机制）

信息提取：

3 实验结果

在阿里巴巴天池竞赛的数据及上效果。

相关消融实验：移除视觉特征后，在天池数据以及SROIE上，能明显看出视觉特征可以在提取结构化信息的问题上发挥重要的作用。同理，删除全局节点也降低了模型精度，也验证了全局连接在图结构中的重要性。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

论文解读系列十三：全局信息对于图网络文档解析的影响

1 背景介绍

2 网络结构

3 实验结果

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

论文解读系列十三：全局信息对于图网络文档解析的影响

1 背景介绍

2 网络结构

3 实验结果

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品