多模态信息抽取系列--预训练模型 Layout LM V3

举报
yd_262077897 发表于 2022/10/05 16:53:40 2022/10/05
【摘要】 Layout XLM在Layout LM V2的基础上,优化文本编码,模型不需要一个训练好的图像提取模型,实现整体预训练的端到端转化、模型结构整体结构与LayoutLM V2 类似,只是改变了图片编码的方式text embedding:采用bert类似的文本向量化方法image embedding:摆脱传统的基于R-CNN的训练好的模型,直接将图片resize到固定尺寸,然后切割patch,...

Layout XLM在Layout LM V2的基础上,优化文本编码,模型不需要一个训练好的图像提取模型,实现整体预训练的端到端转化、

模型结构

整体结构与LayoutLM V2 类似,只是改变了图片编码的方式

text embedding:采用bert类似的文本向量化方法

image embedding:摆脱传统的基于R-CNN的训练好的模型,直接将图片resize到固定尺寸,然后切割patch,直接投影到规定尺寸,

多模态信息融合:通过self-attention机制对图片和文本信息进行融合。

预训练任务:

  1. MLM Masked Language Modeling:mask 30%的词或短语,预测mask词
  2. MIM Masked Image Modeling: 随机mask 图像上40%的token,然后预测生成mask的信息
  3. WPA word-patchAlignment:预测patch 上的词是否被mask

下游Fine-tuning 任务

在实体识别和DocVQA上均有较明显的提升

总结:

从Layout LM V1 逐步演好到V3,模型的机构不断改进,在Layout LM V3中,图像特征直接投影到固定维度向量,用这种方式接入模型,模型不再需要一个训练好的图片特征提取模型,实现整个模型端到端训练,模型在下游的任务中表现更好。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。