百度RocketQA系列搜索技术论文解析(二)
PAIR论文是建立在RocketQA基础之上的,沿用了大部分RocketQA的优化方案。主要研究的问题是在dual-encoder召回模型中,如何优化pairwise损失函数,使得正负answer样本在embedding空间中产生距离,从而增强模型的区分度。
研究问题:
- 在文本相似度匹配领域中,如果两个句子非常相似,但是两个句子一个是肯定句,另一个是否定句,这个时候两个文本的相似度应该是一个非常低的值,文本相似度领域的研究者采取了很多手段达到这个效果。在文本搜索领域同样由类似的问题,如图2中所示,两个句子的描述非常相似,但是句子的主体(H1N1和H5N1)不一样,传统的模型会将这两个句子Embedding得比较相近(如图1(a)所示),这会导致模型在使用阶段,对这类文章之间区分度较低,会在一定程度上降低模型效果。
提出方案:
-
约束正负例的Embedding之间的距离:在传统loss的基础上,约束正负例之间的Embedding距离。但是模型没有直接对正负例的Embeding做约束,而是通过约束正例与query之间的距离与正负例之间的距离,达到加大正负例之间Embedding距离的目的。
-
由于Loss将正负例之间的距离与query与正例之间的距离产生了联系,模型将Dual-encoder中的query的encoder和passage的encoder做了参数共享,即query和passage在同一个Embedding空间中。
-
通过一个Corss-encoder Teacher Model做数据扩充:这部分跟RocketQA的做法基本一致。
-
两阶段训练:先使用扩充得到的伪标注数据,在Combined Loss上面进行预训练;然后在标注数据+伪标注数据上,使用传统的loss(LQ)进行训练。
实验及结论:
- 在MSMARCO和Natural Questions两个数据集上面达到了高于RocketQA的效果。
Reference
[1] RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering
[2] PAIR: Leveraging Passage-Centric Similarity Relation for Improving Dense Passage Retrieval
[3] RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking
- 点赞
- 收藏
- 关注作者
评论(0)