百度RocketQA系列搜索技术论文解析(二)

举报
人工智障研究员 发表于 2022/05/16 19:38:06 2022/05/16
【摘要】 本系列文章是对百度提出的RocketQA系列搜索技术相关论文(RocketQA[1]、PAIR[2]、RocketQAv2[3])的解析,主要探寻深度学习时代检索技术的瓶颈与技术方向。本文是对PAIR论文的解析,PAIR主要研究约束dual-encoder中正负answer样本之间的embedding距离,优化answer的embedding空间,增加模型使用阶段对于answer样本之间的区分度,

    PAIR论文是建立在RocketQA基础之上的,沿用了大部分RocketQA的优化方案。主要研究的问题是在dual-encoder召回模型中,如何优化pairwise损失函数,使得正负answer样本在embedding空间中产生距离,从而增强模型的区分度。


   研究问题:

  • 在文本相似度匹配领域中,如果两个句子非常相似,但是两个句子一个是肯定句,另一个是否定句,这个时候两个文本的相似度应该是一个非常低的值,文本相似度领域的研究者采取了很多手段达到这个效果。在文本搜索领域同样由类似的问题,如图2中所示,两个句子的描述非常相似,但是句子的主体(H1N1和H5N1)不一样,传统的模型会将这两个句子Embedding得比较相近(如图1(a)所示),这会导致模型在使用阶段,对这类文章之间区分度较低,会在一定程度上降低模型效果。

问题与正负例答案Embedding示例

正负例答案过于相似的例子


   提出方案:

  • 约束正负例的Embedding之间的距离:在传统loss的基础上,约束正负例之间的Embedding距离。但是模型没有直接对正负例的Embeding做约束,而是通过约束正例与query之间的距离与正负例之间的距离,达到加大正负例之间Embedding距离的目的。
    PAIR文章提出的loss

  • 由于Loss将正负例之间的距离与query与正例之间的距离产生了联系,模型将Dual-encoder中的query的encoder和passage的encoder做了参数共享,即query和passage在同一个Embedding空间中。

  • 通过一个Corss-encoder Teacher Model做数据扩充:这部分跟RocketQA的做法基本一致。

  • 两阶段训练:先使用扩充得到的伪标注数据,在Combined Loss上面进行预训练;然后在标注数据+伪标注数据上,使用传统的loss(LQ)进行训练。
    PAIR模型训练过程


   实验及结论:

  • 在MSMARCO和Natural Questions两个数据集上面达到了高于RocketQA的效果。
    PAIR实验结果

Reference
[1] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
[2] PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval
[3] RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。