多模态信息抽取系列--预训练模型 Layout LM v2

举报
yd_262077897 发表于 2022/10/05 15:51:12 2022/10/05
【摘要】 Layout LM V2 在Layout LM V1的基础改变模型结构,讲视觉信息与文本信息通过attention进行融合编码, 提升信息融合的效率。模型结构以文本、布局、图像作为输入,建模交叉模态:文本编码:采用BERT类似的编码方式视觉编码:采用ResNeXt-FPN编码版面编码:多模态信息融合:预训练数据集:MVLM, Masker Visual-Language Model: 随机一...

Layout LM V2 在Layout LM V1的基础改变模型结构,讲视觉信息与文本信息通过attention进行融合编码, 提升信息融合的效率。

模型结构

以文本、布局、图像作为输入,建模交叉模态:

文本编码:采用BERT类似的编码方式

视觉编码:采用ResNeXt-FPN编码

版面编码:

多模态信息融合:

预训练数据集:

  1. MVLM, Masker Visual-Language Model: 随机一些掩盖文本tokens,促使模型利用版面信息对其复原,为避免模型利用视觉线索,掩盖tokens对应的图像区域也应该掩盖;
  2. TIA, Text-Image Alignment: 随机选择一些文本行,覆盖对应的图像区域,使模型预测token对应的图像区域是否被掩盖,即[Covered][Not Covered],促使模型学习边界框坐标与图像之间的关系;
  3. TIM, Text-Image Matching: 粗粒度的模态对齐任务,预测文本和图像的来源是否一致(当前文本是否来自于当前图像)。通用随机替换或删除图像构造负样本,负样本对应TIA任务的所有标签均为[Covered]

预训练模型设置&预训练任务

预训练模型设置

  1. 使用UniLMv2模型初始化网络参数;
  2. ResNeXt-FPN的backbone: MaskRCNN,基于PubLayNet训练;
  3. 使用随机滑窗的方法随机截取长文本中的512个token;
  4. 视觉编码器平局池化层输出维度W×H=7×7,即总共有49个视觉token;
  5. MVLM,token mask的概率及方式与LayoutLM一致;

预训练任务:

  1. MVLM:预测15%的token,选其中80%替换为[MASK],10%随机替换,余下10%不变;
  2. TIA  Text-Image Alignment: 判断文本片段对应的image 是够被覆盖
  3. TIM Text-Image Matching:判断文本与图片是都对应

下游Fine-Tuning 效果:

在RVL_CDIP文档分类数据集,效果对比:

在实体识别任务上测试效果

效果提升,在文档分类和实体识别,都较传统BERT单模态效果提升明显。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。