ICLR 2022 EntQA | 实体链接看作问答

JuTzungKuei 发表于 2022/03/28 09:12:39 2022/03/28
【摘要】 本文是对ICLR 2022 EntQA 实体链接看作问答 这一论文工作进行初步解读。

论文:Zhang W, Hua W, Stratos K. EntQA: Entity Linking as Question Answering[J]. arXiv preprint arXiv:2110.02369, 2021.

链接:https://arxiv.org/pdf/2110.02369.pdf

代码:https://github.com/WenzhengZhang/EntQA

0、摘要

  • 实体链接(EL)传统方法:先提及,后实体
    • 局限性:不知道实体的情况下,先找提及,不自然
  • EntQA:用问答来解决实体链接
    • 检索器:快速找出候选实体
    • 阅读器:找到每个实体的提及
  • 结合实体链接、开放域问答的进展,以及预训练模型方法,密集实体检索+阅读理解
    • 不依赖<提及-候选>词典和大规模弱监督

1、介绍

  • EL的一般形式:抽取实体提及、链接提及到KG里面的实体
    • EL是自动文本理解任务的基建,应用于问答、信息检索、商业推荐系统等
  • EL的输出空间非常大,文档里的提及链接的候选实体通常是百万级
  • 现有方法:EL 分成 提及检测 MD 和 实体消歧 ED,然后独立解决
    • 1)MD → ED,以前的工作是假设提及被给定,跑现成的NER模型,抽取提及;
    • 2)训练一个端到端的模型,联合执行,通过术搜索进行ED;
  • MD → ED:要求不知道相关实体的情况下,找到提及
    • 提及的定义:实体的指称,先有的实体,后有的提及
    • span的抽取依赖第三方NER系统,错误传播(端到端模型缓解不了这个困境)
  • 本文工作:ED → MD(翻转两个任务的顺序)
    • 先找到文档中可能提到的候选实体,然后为每个实体找到其提及
    • 困难:不知道图谱相关实体,找提及
    • 容易:不知道实体提及,找相关实体
  • 将问题看作是倒置的开放域QA
    • 给定一个文档,使用一个双编码器检索器,检索top-K候选实体,作为“问题”
    • 然后,使用一个深度交叉注意力阅读器,识别每个候选的提及,作为“答案区间”
    • 必须预测未知数量的问题和答案,基于阈值解决
  • EntQA优势
    • 可以利用密集实体搜索和开放域QA的最新进展(BLINK实体检索器、微调ELECTRA)
    • 不依赖<提及-候选>词典
    • 训练EntQA,数据高效,学术预算足够

2、方法

  • 检索器(FAQ

    • 相似度得分 = 段落编码 * 实体编码
  • 阅读器(MRC

    • 编码([CLS]段落[SEP]实体[SEP]),MRC模型,预测提及开始和结束位置

    • 提及区间的概率

    • 实体出现的概率

  • 推理

    • 1、检索top-K候选实体
    • 2、每个候选实体,抽取top-P个候选提及区间
    • 3、实体概率 * 区间概率,排序

3、结果


号外号外:想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营供大家免费学习。

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请发送邮件至:cloudbbs@huaweicloud.com;如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。