- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

百度RocketQA系列搜索技术论文解析（二）

人工智障研究员发表于 2022/05/16 19:38:06 2022/05/16

【摘要】本系列文章是对百度提出的RocketQA系列搜索技术相关论文（RocketQA[1]、PAIR[2]、RocketQAv2[3]）的解析，主要探寻深度学习时代检索技术的瓶颈与技术方向。本文是对PAIR论文的解析，PAIR主要研究约束dual-encoder中正负answer样本之间的embedding距离，优化answer的embedding空间，增加模型使用阶段对于answer样本之间的区分度，

PAIR论文是建立在RocketQA基础之上的，沿用了大部分RocketQA的优化方案。主要研究的问题是在dual-encoder召回模型中，如何优化pairwise损失函数，使得正负answer样本在embedding空间中产生距离，从而增强模型的区分度。

研究问题：

在文本相似度匹配领域中，如果两个句子非常相似，但是两个句子一个是肯定句，另一个是否定句，这个时候两个文本的相似度应该是一个非常低的值，文本相似度领域的研究者采取了很多手段达到这个效果。在文本搜索领域同样由类似的问题，如图2中所示，两个句子的描述非常相似，但是句子的主体（H1N1和H5N1）不一样，传统的模型会将这两个句子Embedding得比较相近（如图1（a）所示），这会导致模型在使用阶段，对这类文章之间区分度较低，会在一定程度上降低模型效果。

提出方案：

约束正负例的Embedding之间的距离：在传统loss的基础上，约束正负例之间的Embedding距离。但是模型没有直接对正负例的Embeding做约束，而是通过约束正例与query之间的距离与正负例之间的距离，达到加大正负例之间Embedding距离的目的。
由于Loss将正负例之间的距离与query与正例之间的距离产生了联系，模型将Dual-encoder中的query的encoder和passage的encoder做了参数共享，即query和passage在同一个Embedding空间中。
通过一个Corss-encoder Teacher Model做数据扩充：这部分跟RocketQA的做法基本一致。
两阶段训练：先使用扩充得到的伪标注数据，在Combined Loss上面进行预训练；然后在标注数据+伪标注数据上，使用传统的loss（LQ）进行训练。

实验及结论：

在MSMARCO和Natural Questions两个数据集上面达到了高于RocketQA的效果。

Reference
[1] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
[2] PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval
[3] RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

百度RocketQA系列搜索技术论文解析（二）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

百度RocketQA系列搜索技术论文解析（二）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品