多模态信息抽取系列--预训练模型 Layout LM v2
【摘要】 Layout LM V2 在Layout LM V1的基础改变模型结构,讲视觉信息与文本信息通过attention进行融合编码, 提升信息融合的效率。模型结构以文本、布局、图像作为输入,建模交叉模态:文本编码:采用BERT类似的编码方式视觉编码:采用ResNeXt-FPN编码版面编码:多模态信息融合:预训练数据集:MVLM, Masker Visual-Language Model: 随机一...
Layout LM V2 在Layout LM V1的基础改变模型结构,讲视觉信息与文本信息通过attention进行融合编码, 提升信息融合的效率。
模型结构
以文本、布局、图像作为输入,建模交叉模态:
文本编码:采用BERT类似的编码方式
视觉编码:采用ResNeXt-FPN编码
版面编码:
多模态信息融合:
预训练数据集:
- MVLM, Masker Visual-Language Model: 随机一些掩盖文本tokens,促使模型利用版面信息对其复原,为避免模型利用视觉线索,掩盖tokens对应的图像区域也应该掩盖;
- TIA, Text-Image Alignment: 随机选择一些文本行,覆盖对应的图像区域,使模型预测token对应的图像区域是否被掩盖,即
[Covered]
或[Not Covered]
,促使模型学习边界框坐标与图像之间的关系; - TIM, Text-Image Matching: 粗粒度的模态对齐任务,预测文本和图像的来源是否一致(当前文本是否来自于当前图像)。通用随机替换或删除图像构造负样本,负样本对应TIA任务的所有标签均为[Covered]
预训练模型设置&预训练任务
预训练模型设置
- 使用UniLMv2模型初始化网络参数;
- ResNeXt-FPN的backbone: MaskRCNN,基于PubLayNet训练;
- 使用随机滑窗的方法随机截取长文本中的512个token;
- 视觉编码器平局池化层输出维度W×H=7×7,即总共有49个视觉token;
- MVLM,token mask的概率及方式与LayoutLM一致;
预训练任务:
- MVLM:预测15%的token,选其中80%替换为[MASK],10%随机替换,余下10%不变;
- TIA Text-Image Alignment: 判断文本片段对应的image 是够被覆盖
- TIM Text-Image Matching:判断文本与图片是都对应
下游Fine-Tuning 效果:
在RVL_CDIP文档分类数据集,效果对比:
在实体识别任务上测试效果
效果提升,在文档分类和实体识别,都较传统BERT单模态效果提升明显。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)