多模态信息抽取系列--预训练模型 Layout LM V3
【摘要】 Layout XLM在Layout LM V2的基础上,优化文本编码,模型不需要一个训练好的图像提取模型,实现整体预训练的端到端转化、模型结构整体结构与LayoutLM V2 类似,只是改变了图片编码的方式text embedding:采用bert类似的文本向量化方法image embedding:摆脱传统的基于R-CNN的训练好的模型,直接将图片resize到固定尺寸,然后切割patch,...
Layout XLM在Layout LM V2的基础上,优化文本编码,模型不需要一个训练好的图像提取模型,实现整体预训练的端到端转化、
模型结构
整体结构与LayoutLM V2 类似,只是改变了图片编码的方式
text embedding:采用bert类似的文本向量化方法
image embedding:摆脱传统的基于R-CNN的训练好的模型,直接将图片resize到固定尺寸,然后切割patch,直接投影到规定尺寸,
多模态信息融合:通过self-attention机制对图片和文本信息进行融合。
预训练任务:
- MLM Masked Language Modeling:mask 30%的词或短语,预测mask词
- MIM Masked Image Modeling: 随机mask 图像上40%的token,然后预测生成mask的信息
- WPA word-patchAlignment:预测patch 上的词是否被mask
下游Fine-tuning 任务
在实体识别和DocVQA上均有较明显的提升
总结:
从Layout LM V1 逐步演好到V3,模型的机构不断改进,在Layout LM V3中,图像特征直接投影到固定维度向量,用这种方式接入模型,模型不再需要一个训练好的图片特征提取模型,实现整个模型端到端训练,模型在下游的任务中表现更好。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)