论文解读系列十六:Zero-Shot场景下的信息结构化提取
【摘要】 在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。
摘要
在信息结构化提取领域,前人一般需要基于人工标注的模板来完成信息结构化提取。论文提出一种zero-shot的基于图卷积网络的解决方案,可以解决训练集和测试集来自不同垂直领域的问题。
问题定义
Relatin Extraction
- Close Relation Extraction (ClasedIE)
表示类别集合,包含无类别,模型直接为每个实体分配类别即可。 - Open Relation Extraction(OpenIE)
表示类别集合,模型作两类分类,判断一个实体是否是另一个实体的key。
Zero-Shot Extraction
Zero-Shot按难度分可以区分如下:
- Unseen-Website Zero-shot Extraction
即同一垂直领域的不同版式,比如,都是来自电影的网页。只是推理测试的时候使用的网页排版与训练不一样。 - Unseen-Websiste Zero-shot Extraction
即不同垂直领域的不同版式,比如,训练是来自电影的网页,而推理测试的时候使用的可能是招聘类网站的网页。
论文提出的解决方案其实是发掘出图网络中全部的key-value对,由于发掘key-value这个任务本身是版式不依赖的,从而起到了跨领域的版式结构解析。
概念
- relation: 指key
- object:指value
- relationship: 指key -> value
编码器(特征构建)
节点信息的构建由图 来完成,包括一系列的节点 (实体),和节点之间的边E(Edges)。
基于设计的规则来构建实体之间的关系
以下情况下,会构建节点之间的边(key-value对经常是上下关系或左右关系):
- 水平情况:水平邻居,而且中间没有其它节点;
- 垂直情况:垂直邻居,而且中间没有其它节点;
- 同级情况:同级节点;
使用图网络来实体之间的关系进进建模
基于Graph Attention Network (GAT)来对节点关系进行建模,节点初始(输入)特征:
- 视觉特征:网页中对节点的视觉类描述;
- 文本特征:OpenIE是对预训练Bert进行特征平均,CloseIE则是统计该节点字符串出现的频率(似乎对跨领域更友好);
预训练机制
论文设计了辅助的损失函数 进行三类分类的监督:{key, value, other}。同时为了防止训练过程过拟合,预训练完成后,OpenIE任务中的图网络权重不会更新。
关系预测网络
OpenIE
判断一对节点是否满足第一个节点字符串内容是第二个节点字符串内容的key:
- 使用the candidate pair identification algorithm来获取潜在的字符串对;
- 两个节点的原始输入特征+GNN输出特征+两个节点的关系特征作为分类器输入;
- 全连接网络进行分类;
ClosedIE
交叉熵多类分类
实验
- 确实是跨领域任务更加困难。
- CloseIE:确实是网址越多,效果越好。
- 确认各个因素对网络模型效果的影响。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)