EMNLP2020 ELQ | 高效的一站式端到端问句实体链接
【摘要】 本文是对EMNLP2020 ELQ 高效的一站式端到端问句实体链接 这一论文工作进行初步解读。
论文:Li B Z, Min S, Iyer S, et al. Efficient One-Pass End-to-End Entity Linking for Questions[C]//Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP). 2020: 6433-6441.
链接:https://aclanthology.org/2020.emnlp-main.522/
代码:https://github.com/facebookresearch/BLINK/tree/main/elq

0、摘要
- ELQ:
- 一个快速的端到端实体链接模型
- 双编码器 联合执行提及检测和链接
- F1提升
- WebQSP +12.7%、
- GraphQuestions +19.6%
- 性能:单个cpu 1.57句/s
1、介绍
- 实体链接 EL:识别实体,链接到正确的词条
- 存在问题:
- 含噪音,格式错误,缺乏大小写和标点
- 预训练模型已被证明对实体链接非常有效,仅用于实体消歧(提及提前已知)
- 只在长文本、格式好的文本上评估,非短、噪音文本
- 只关注精度,忽略效率
- ELQ:只针对问句
- 给定一个问句,识别实体提及和对应的百科实体
- 基于BERT的双编码器;实体编码器:计算所有实体的向量;问题编码器:派生词级的向量
- 使用向量检测提及边界,根据提及向量和实体向量的内积实现消歧
- 扩展前人工作(BLINK):不需要指定提及边界作为输入,可以一站式执行提及检测、实体消歧,可识别问句里多个实体
- 扩展了前人工作(实体消歧),构建一个端到端问句实体链接基准
- 效率相比其他神经基线,提升2倍,精度更高
- 双编码器:通过最大内积搜索,可实现快速推理;可分解为实体编码器和问题编码器
2、方法
-
定义:给定一个问句,一组实体,每个实体的标题和描述,输出一组<实体,提及>对
- 实际:取实体描述的前128个词

- 实际:取实体描述的前128个词
-
ELQ
- 问句的词级表示:
- 实体的表示:
-
提及检测
- 头尾位置得分: ;
- 提及每个词得分:
- 提及最终得分:
-
实体消歧
- 候选提及的表示:
- 候选提及和候选实体的相似度:
- 概率分布

-
训练
-
提及检测损失

-
实体消歧损失

-
-
迁移学习
- 采用BLINK训练的模型,冻结权重,只训练问题编码器
- 挖掘困难负样例:实体编码固定,可快速搜索困难负样例
-
推理
- 提及检测模型:获取一组提及,计算概率分布
3、结果

号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请发送邮件至:cloudbbs@huaweicloud.com;如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
- 点赞
- 收藏
- 关注作者
评论(0)