ICLR 2022 EntQA | 实体链接看作问答
【摘要】 本文是对ICLR 2022 EntQA 实体链接看作问答 这一论文工作进行初步解读。
论文:Zhang W, Hua W, Stratos K. EntQA: Entity Linking as Question Answering[J]. arXiv preprint arXiv:2110.02369, 2021.
链接:https://arxiv.org/pdf/2110.02369.pdf
代码:https://github.com/WenzhengZhang/EntQA

0、摘要
- 实体链接(EL)传统方法:先提及,后实体
- 局限性:不知道实体的情况下,先找提及,不自然
- EntQA:用问答来解决实体链接
- 检索器:快速找出候选实体
- 阅读器:找到每个实体的提及
- 结合实体链接、开放域问答的进展,以及预训练模型方法,密集实体检索+阅读理解
- 不依赖<提及-候选>词典和大规模弱监督
1、介绍
- EL的一般形式:抽取实体提及、链接提及到KG里面的实体
- EL是自动文本理解任务的基建,应用于问答、信息检索、商业推荐系统等
- EL的输出空间非常大,文档里的提及链接的候选实体通常是百万级
- 现有方法:EL 分成 提及检测 MD 和 实体消歧 ED,然后独立解决
- 1)MD → ED,以前的工作是假设提及被给定,跑现成的NER模型,抽取提及;
- 2)训练一个端到端的模型,联合执行,通过术搜索进行ED;
- MD → ED:要求不知道相关实体的情况下,找到提及
- 提及的定义:实体的指称,先有的实体,后有的提及
- span的抽取依赖第三方NER系统,错误传播(端到端模型缓解不了这个困境)
- 本文工作:ED → MD(翻转两个任务的顺序)
- 先找到文档中可能提到的候选实体,然后为每个实体找到其提及
- 困难:不知道图谱相关实体,找提及
- 容易:不知道实体提及,找相关实体
- 将问题看作是倒置的开放域QA
- 给定一个文档,使用一个双编码器检索器,检索top-K候选实体,作为“问题”
- 然后,使用一个深度交叉注意力阅读器,识别每个候选的提及,作为“答案区间”
- 必须预测未知数量的问题和答案,基于阈值解决
- EntQA优势
- 可以利用密集实体搜索和开放域QA的最新进展(BLINK实体检索器、微调ELECTRA)
- 不依赖<提及-候选>词典
- 训练EntQA,数据高效,学术预算足够
2、方法
-
检索器(FAQ)
- 相似度得分 = 段落编码 * 实体编码

- 相似度得分 = 段落编码 * 实体编码
-
阅读器(MRC)
-
编码([CLS]段落[SEP]实体[SEP]),MRC模型,预测提及开始和结束位置

-
提及区间的概率

-
实体出现的概率

-
-
推理

- 1、检索top-K候选实体
- 2、每个候选实体,抽取top-P个候选提及区间
- 3、实体概率 * 区间概率,排序
3、结果

号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。
【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请发送邮件至:cloudbbs@huaweicloud.com;如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
- 点赞
- 收藏
- 关注作者
评论(0)