多模态信息抽取系列--预训练模型 Layout LM v1

举报
yd_262077897 发表于 2022/10/05 15:22:13 2022/10/05
【摘要】 模型结构介绍主模型结构:使用BERT作为backbone,加入2-D绝对位置信息,图像信息,分别捕获token在文档中的相对位置以及字体、文字方向、颜色等视觉信息。Layout系列模型(LayoutLM,LayoutLMv2,LayoutXLM)2D位置嵌入:文档页面视为坐标系统(左上为原点), 使用2张embedding table构造4种位置嵌入,横纵轴各使用1张嵌入表;图像嵌入:将文档...

模型结构介绍

  • 主模型结构:使用BERT作为backbone,加入2-D绝对位置信息,图像信息,分别捕获token在文档中的相对位置以及字体、文字方向、颜色等视觉信息。
    Layout系列模型(LayoutLM,LayoutLMv2,LayoutXLM)
  • 2D位置嵌入:文档页面视为坐标系统(左上为原点), 使用2张embedding table构造4种位置嵌入,横纵轴各使用1张嵌入表;
  • 图像嵌入:将文档页面图像分割成小图片序列,基于Faster R-CNN建模整张图片特征丰富[CLS]token表征;

预训练数据集介绍:
预训练集 IIT-CDIP Test Collection 1.0(600万扫描件,含1200万扫描图片,含信件、邮件、表单、发票等)。

  1. MVLM, Masker Visual-Language Model: 随机掩盖输入tokens,保留2-D信息,预测被掩盖token分布;
  2. MDC, Multi-label Document Classification: 监督预训练多标签文档分类,促使模型聚类不同文档特征,增强文档级特征表示;

预训练模型设置&任务:

Layout LM 设置

  1. 除2-D positional embeddings之外,其余参数使用bert base初始化;
  2. 标准化所有坐标点为0~1000;
  3. 使用ResNet-101作为Fatser R-CNN的backbone;

预训练任务:

  1. MVLM:预测15%的token,选其中80%替换为[MASK],10%随机替换,余下10%不变;
  2. 文档分类任务

下游Fine-tuning任务效果:

将预训练模型分别在Form Understanding、Receipt Understanding、 Document Image Classification三项任务上验证,较存BERT模型均有较大提升,具体如下:

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。