论文解读系列十八:融合视觉、语义、关系多模态信息的文档版面分析架构VSR
【摘要】 文档版式分析任务中,文档的视觉信息、文本信息、各版式部件间的关系信息都对分析过程具有很重要的作用。本文提出一种融合视觉、文本、关系多模态信息的版式分析架构VSR。
现有文档版面分析方法大致可分为两种:基于NLP的方法将版面分析任务看作是序列标签分类任务(sequence labeling),但是该类方法在版面建模上表现出不足,无法捕获空间信息;基于CV的方法则将版面分析看作是目标检测或分割任务(object detection or segmentation),该类方法的不足表现在(1)缺乏细粒度的语义、(2)简单的拼接方式、(3)未利用关系信息。如图1展示的VSR的motivation示意图,为解决上述各方法的局限性问题,本文提出一种融合视觉、文本、关系多模态信息的版式分析架构VSR (Vision, Semantic, Relation)。
图1 VSR的motivation示意图
1. 问题定义
版式分析任务既可当做序列标签分类,又可当做目标检测。主要区别在于部件候选(component candidates)的选择。对于基于NLP方法,即序列标签分类的定义,选择通过pdf解析或OCR识别得到text tokens;对于基于CV方法,即目标检测或分割的定义,选择通过目标检测网络如Mask RCNN得到的区域RoI。VSR主要围绕目标检测的定义展开,同时VSR也可以很直接地应用到基于NLP的方法上。
2. VSR架构
VSR架构如图2所示,主要包括三个模块:双流卷积网络(two-stream ConvNets)、多尺度自适应聚合模块、关系学习模块。首先,双流卷积网络提取视觉和语义特征;然后,相对于简单的拼接,多尺寸自适应聚合模块来得到视觉和语义双模态信息表示;接着,基于聚合的多模态信息表示,可以生成布局组件候选集;最后,关系学习模块来学习各组件候选间的关系,并生成最终结果。下面对各模块具体展开。
图2 VSR架构图
2.1 双流卷积网络
VSR采用双流卷积神经网络(本文采用的是ResNeXt-101)来分别提取图像视觉信息和文本语义信息。
视觉ConvNet
对于输入图片 ,通过骨干CNN网络,得到视觉信息的多尺度特征图 ,其中 , 和 分别是图片的高和宽, 是通道数。
语义ConvNet
VSR将文本转换为2D表示 , 其中 是初始通道维度(本文取64)。根据字符和语句两种粒度分别得到CharGrid和SentGrid:
其中 表示第 个字符, 是其对应两点标注(左上角和右下角横纵坐标), 是词向量映射操作。
其中
表示第
个语句,
是其对应两点标注,
是预训练的BERT模型。
对字符和语句两个粒度的语义信息进行融合,得到文本2D表示
:
将 输入到骨干CNN网络,得到文本信息的多尺度特征图 ,与视觉信息的多尺度特征图 是同样的尺寸和维度。
2.2 多尺寸自适应聚合模块
在得到各模态的特征图表示后,通过一个卷积层得到attention map ,再基于attention map对各模态特征进行聚合得到聚合特征图 :
其中 是一个卷积核尺寸为 的卷积层, 是非线性激活函数。随后 经过特征金字塔网络FPN得到最终的多模态聚合特征。
2.3 关系学习模块
在得到FM后,可以通过RPN网络很容易得到ROI(Region of Interest)作为布局部件候选集。本文在实验阶段选择的是Mask RCNN,同时设置7个anchor比例
得到部件候选集。如图3所示,根据各部件候选之间的关系,可以有如下作用:(1)利用空间位置关系,调整文本框坐标;(2)根据部件间的共现关系(比如表格和表格标题一般会同时出现)修正预测标签;(3)各component间不重叠的特性移除多余框。VSR中关系学习模块对各部件候选间的关系进行建模,并最终得到版面分析的结果。
图3 VSR关系学习模块作用示意图
将一篇文档作为一张图graph,而每个部件候选component candidate作为节点node。每个节点的特征表示由多模态特征表示和位置信息表示组成:
其中
,而
是位置坐标的向量表示。
通过self-attention机制来学习关系:
其中
都是由
来表示,
是经过self-attention后的输出结果。
计算节点即部件候选的分类概率:
计算节点即部件候选的边框坐标回归:
2.4 优化训练
序列标注的定义下:
采用分类交叉熵进行优化:
其中 是text token的个数, 是序列标注的groundtruth。
目标检测的定义下:
优化损失函数计算:
其中 是候选生成阶段的损失,包括交叉熵(用于分类)和smooth L1(用于边框回归); 是关系学习模块的损失,同样包括交叉熵(用于分类)和smooth L1(用于边框回归)。本文实验中设置 。
3. 实验结果
3.1 对比实验
VSR在三个开源数据集Article Regions,PubLayNet,DocBank上取得了最优结果。

3.2 消融实验
表5、表6、表7的实验结果分别验证了A.不同粒度的文本表示;B.双流卷积网络和聚合模块;C.关系学习模块三个部分的有效性。
4. 总结
VSR方法的三个重要部分如下:
(1)文本语义用character和sentence两种粒度来表示;
(2)采用two-stream convnet来分别提取视觉和语义特征,再通过attention将两个模态特征聚合,最后基于聚合特征得到component candidates;
(3)GNN即Self attention来学习各component candidates间的关系。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)