英语阅读理解公开数据源整理分析
参考:English Machine Reading Comprehension Datasets: A Survey
注:
括号里的基本来自上述参考综述里的统计指标,元素为 任务类型/数据来源/a回答长度/q问题长度/p段落长度。
下文主要为 数据源类型-数据集名称-数据集相关信息(数据源论文、链接,数据构造方式,数据分布等)。
部分数据源未细致分析,可参考上述综述文件介绍。
部分数据源构建方式为个人参考数据源源论文理解获得,部分未详细分析,可参考相关数据集源论文。
问题类型:布尔,多选,抽取,生成,对话推理,混合
数据构建方式:众包crw/专家experts/人工ug/自动ag/知识图谱kg
领域:百科、电影/剧本、网络文档、社区、书籍/故事
维基百科:
SQuAD(Natural Questions: A Benchmark for Question Answering Research)
(抽取,crw; a 3.5 q 11.4 p 137.1,非单词非ascii比例较多26%, what other who) - SQuAD2.0,13w+
https://rajpurkar.github.io/SQuAD-explorer/
- 问题-文段-回答。答案在原文里。有无答案的。问题多为百科类。
BoolQ (BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions)
(布尔,ug/crw; a - q 8.8 p 109.4,绝大部分97%为boolean类问题,is,boolean other),(回答true/false,全为反问句,回答为true/false,9427+3271)。问题多为百科类。
https://github.com/google-research-datasets/boolean-questions
问题在google上查找,获取前5个wiki页面,人工写答案(判断是否是好问题、从wiki抽一个答案依据的段落,如果wiki没有包含答案则not answerable,回答yes/no)。
- 问题开头没有大写,问题全小写(包括专有名词),问题末尾无标点,只有yes/no没有reason。
- 问题-文段-回答。有的问题/答案不在文本里。问题多为百科类。
TriviaQA(TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension)
(生成,trivia/crw;which;a 2.3 q 16.4 p 3867.6,非单词非ascii比例较多45%,other which what,49%非常规问题,13k+)
http://nlp.cs.washington.edu/triviaqa/
人工撰写的问答对儿,文本从web和wiki回顾性收集(新闻、百科、博客)(bing搜索或者问题中实体的wiki,取排名前十的)
- 文本数据需清洗,比如来自web的youtube数据有其他网站来源或常规模板等前缀等
- 问题-回答-多个文段。问题分布多为角色人物事件类。答案不知道在不在原文里,但短答案可能都在,有答案的别名(alias)等。
Natural Questions (Natural Questions: A Benchmark for Question Answering Research)
(混合 抽取,ug/crw,a 164.56 q 9.36 p 7312.13,回答较长;who较多,有较多非常规类问题,非单词非ascii比例较多30%,链接较多12%,who other what),307373。
(google搜索问题的包含wiki的前5回答),annotations里的long answer是wiki原生html的片段,有可能有表格等不友好形式,短回答从长回答中抽取,可以标记为无答案,是标注者人工标注的。(综述里回答长度平均长度应该是长回答的?短回答没那么长。)
- long answer和annotation里的html格式提取净化麻烦,有table等不友好格式,回答也有```开头结尾等需要处理。
- 答案在原文里。问题-文段(html文本)-长短多个回答。问题分布多为百科类。
WikiQA(WikiQA: A Challenge Dataset for Open-Domain Question Answering)
(多选,ug/crw; a – q 6.5 p 252.6 what who when)
3047个问题,bing查询日志采样,点击wiki认为相关,文章页面的摘要所有句子为候选,答案为整个句子,不是准确答案,标注者标注是否为正确答案。
TyDi (TYDI QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages)
(混合,crw,where问题多,多语言,a 4.6 q 8.3 p 3694.2;非单词非ascii比例较多31% what when how多)。
https://github.com/google-research-datasets/tydiqa#download-the-dataset
根据wiki前100字符的简短prompt,标注者写他们感兴趣的/没有被prompt回答的问题,对问题google检索,返回top1 wiki,给标注者问题-wiki,选出段落-答案,或指出no answer。英文共3697 + 440个。
- 需要通过langid筛选出英文的数据,gold task任务数据直接是文本和gold passage,primary则是token-index和原doc和passage_candidates,选择使用后者(综述里的p长度应该是primary task的);多语言,英文较少。
- 问题-文本-多个回答。答案在原文/是否/其他。问题多为百科类。
WikiReading (WikiReading: A Novel Large-scale Language Understanding Task over Wikipedia)
(混合,ag-kg,查询类问题,问题较短,有no answer,有多主题; a 2.2 q 2.35 p 569;非单词非ascii比例较多50.1%)
https://github.com/google-research-datasets/wiki-reading,
- 文档-问题(property)-答案,property为”country””start time””original language of work”等。问题为实体属性名字,如”country””start time”等不是完整的句子,类似知识图谱查询,不是传统问答的问题格式。
HotpotQA(HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering)
(混合,crw,跨文段推理 多跳问题/比较问题; a 2.4 , q 20, p 1100.7;非单词非ascii比例较多45%,other what which,有较多非常规问题42%),112779
问题-答案-多个文段-文段里支撑答案的句子。给定上下文段落/整个web,qa系统提取一段文本来回答问题。20000
比较问题(是否问题子集)构建:42个相似实体列表,从同一列表随机抽取两个段落,呈现给crw。(A-uk,B-us,不会问a还是b来自uk,而是问a和b是否来自同一个国家)
从人群工作者中收集决定答案的句子。从Amazon Mechanical Turk中贡献最大的turker中随机抽取问题,train-easy单跳。桥实体 38% 比较 20% 多实体 29% 桥实体属性 2% 其他多跳 7%,单跳2%,不可回答2%。
多跳推理构建:wiki中超链接通常包含上下文相关的不同实体;第一段包含很多有意义的查询信息,从第一段中提取所有超链接,构建图,生成段落对儿,a->b b来着收集的一组wiki中适合当桥实体的页面,桥实体决定a b共享上下文的主题。
- 问题-答案-支撑事实(短语/句子部分-依据的context 段落名,句子编号),所有wiki entity-sentences组成的contexts。答案自原文(比较短)/是否
网络文档:
MS MARCO (MS MARCO: A Human Generated MAchine Reading COmprehension Dataset)
(生成,ug/hg,有多文档, 有no answer;what; a 11.1 q 6.5 p 65.9,非单词非ascii比例较多28%,what other how,有较多非常规类问题26%)
https://microsoft.github.io/msmarco/#qna https://huggingface.co/datasets/ms_marco
从bing查询日志得到101k问题,每个问题有1个人工生成的答案和182669个人工重写的答案,包含884k段落(从bing356k文档中提取)。问题可能有答案可能没有。是否可回答- 问题加上下文段落生成格式良好的答案 – 给定问题bing检索到的段落排序。
问题类型:描述53% 数值26% 实体8.8% 位置6% 人物5.7%(机器学习分类的)。一个问题10个bing检索出来的文章,is_selected标识段落是否有答案“No Answer Present.”。答案是人工撰写的。
答案重写:答案语法错误/答案与段落大量重叠/没有问题和段落上下文时就无法理解答案,如杯子里的勺子-6->杯子里有6个勺子
- 问题-答案-多个文章段落(is_selected)。答案不是来自原文。问题多为百科类。
新闻/故事:
NewsQA(NewsQA: A Machine Comprehension Dataset)
(抽取,crw,问题-文本来源不同;a 5 q 7.8 p 749.2,what who other),10w+
https://www.microsoft.com/en-us/research/project/newsqa-dataset/
https://cs.nyu.edu/~kcho/DMQA/ 对应CNN/DailyMail故事数据
https://datasets.maluuba.com/NewsQA paper所附数据源链接打不开
来自CNN的1w文章(CNN/DailyMail数据集中的文章,包含政治、经济、时事等),提问者只能根据新闻标题/摘要生成问题1->3(拒绝与摘要明显重叠的问题,这样增加了问题的发散度且可能无答案,没有why/how类问题英文答案会太长),人工生成问题答案,答案源自文章。 很大一部分问题需要推理,squad与newsqa有些特征相似。回答者根据文章回答问题/无答案。第三组标注者会根据文章、问题和一组答案选出最佳答案/拒绝所有答案。
问题有时间/数值/任务/地点/共有名词/动词/短语等,答案有名词短语22%/从句18.3%/人称14.8%/数字9.8%等(斯坦福corenlp解析)。
- 问题-文章-答案匹配对儿需要通过data_generator.py生成。
- 问题多为人物/事件等新闻/故事实体,新闻故事类。答案来自原文。
QuAIL(QuAIL: Question Answering for Artificial Intelligence)
(多选 - 生成,crw/experts;a 4.36 q 9.70 p 388.29)
https://huggingface.co/datasets/quail http://text-machine.cs.uml.edu/projects/quail/(打不开)https://github.com/text-machine-lab/quail
15k问题,四个领域(新闻/博客/小说/个人故事)。解决mrc结果可能来自常识的问题。问题直接来源于文本/文本+常识,增加推理。挑战:模型决定是否有足够的证据。QuAIL是第一个针对问题类型进行平衡和注释的多领域、人工编写的qa数据集,包括无法回答/基于文本/外部知识结合的问题,只有一个上下文来自首段/精华。问题:推理/事件时间顺序/人物身份/因果/人物评定/叙述后续。文本来源于Creative Common?Quora。
train (560 texts in 4 genres, 10346 questions);dev (120 texts in 4 genres, 2164 questions);challenge set: (30 fiction texts, 556 questions, written to be difficult for NLP systems that learned to rely on naive lexical matching.
一篇文章,写9个多项选择答案,必须有一个正确(正确答案-合理答案),问题由crw和学生手工编辑,检查问题类型和答案正确性。
- 答案不在原文中。问题分布为新闻故事人物角色类。问题-选项-答案-文本。有答案有not enough information等字样。
- 文本较难,问题也有故事后续等推理类问题。有_或者“文章结束后作者:”这样的类完型格式。
书籍:
LAMBADA(The LAMBADA dataset: Word prediction requiring a broad discourse context)
(生成x 末尾词完型,crw/ag; a 1 q 15.4 p 58.5 布尔类?非单词非ascii比例较多25%)
https://zenodo.org/record/2630551#.ZF3u4HZByUk
数据特征:一系列叙述段落的集合,人看到整个段落可以猜到最后一个词,只看到最后一句话则不能。
SciQ(Crowdsourcing Multiple Choice Science Questions)
(多选,crw,科学,全其他类,a 1.5 q 14.6 p 87.1)
13k。问题-答案-干扰项-文段。答案不全在支撑依据里,有的support文段为空。科学考题。
- 有部分如图或如表的文本,偶尔有不完整的文本。
CoQA(CoQA: A Conversational Question Answering Challenge)
(对话,crw,有no answer; a 2.9 q 6.5 p 328,what boolean who),
https://stanfordnlp.github.io/coqa/
对话类型(依托前文问答的推理)
电影/剧本:
NarrativeQA (The NarrativeQA Reading Comprehension Challenge)
(生成 - 多选,hg,问题-文本来源不同;what;a 4.8 q 9.9 p 673.9;who较多 how,有较多非常规类问题,what who why),46765 * 2。
http://nlp.cs.washington.edu/triviaqa/
问题分布偏电影剧本/故事类(多为gutenberg、imsdb、dailyscript、awesomefilm等故事源,summary简介来自wiki,只根据摘要编写问题答案,让注释者想象回答问题的人是阅读了全部文章但没有阅读摘要的人,一个问题两个答案,答案出现在摘要里的比例44%,答案出现在故事里的比例29.57%)。问题分布多为人物故事角色演员。(笑死,说基于摘要回答问题的任务在范围上与以前的数据集相似,但是摘要比新闻文章或网络上的短段落包含更复杂的关系和时间线)。问题类型:30.54%人,24.5%描述,9.73%地点,9.4%原因。问题-回答2-摘要-原文
There are answers that appear as spans of the summaries and the stories, 44.05% and 29.57%, respectively. As expected, lower proportion of answers are spans on stories compared to summaries on which they were constructed.
- 答案不在原文。问题分布偏电影剧本/故事类。问题-2个回答-摘要-原文。
- 文本较难,文本基本剧情较完整,问题多为wh-等。答案较短,问题类型不难难的是文本。
DuoRC (DuoRC: A Large-Scale Dataset for Paraphrased Reading Comprehension)
(混合 - 生成,crw,电影描述来源于wiki和imdb, 有no answer,有非事实类;a 3.1 q 8.6 p1260.9,非单词非ascii比例较多26%,who what where)
18k问题对儿,来自7680电影wiki和imdb内容,让标注者从一个中写问题从另一个中提取答案。Imdb犯罪/戏剧/戏剧等前40k电影,清洁简介从wiki和imdb抓取,7680情节超100词的文本。
从imdb获取qa(短plot),对应SelfRC目录的数据;从wiki获得长回答(长plot介绍),对应ParaphraseRC目录数据。
- 文本-问题-回答。答案70%直接从原文抽取答案,30%融合。
- 文本较难,文本基本剧情较完整,问题多为wh-等,有多个回答的答案,有空答案。
医疗:
MedQA
(多选,expert; a 4.2 q 27.4 p 43.2,有较多非常规类问题)
数据不可获得。
来源于医学认证考试,医学考试。问题-备选答案-文档段落集合,目的通过访问文档确认最佳候选答案。5类500道选择题,27w+试题,文档来自32种出版物的文本材料。
CliCR
(完型,ag,人得分较低, a 3.4 q 22.6 p 1411.7,非单词非ascii比例较多25%)
https://github.com/clips/clicr/tree/master
数据获得需要发邮件。
PubMedQA(PubMedQA: A Dataset for Biomedical Research Question Answering)
(布尔 生成,crw , a - q 15.1 p 73.8,boolean other), PubMed
https://github.com/pubmedqa/pubmedqa (还有两部分数据在google硬盘上下载)
源自PubMedQA的摘要的生物医学问答,主要是医学研究的问题(问题很专业很难)
- 问题-上下文-长答案-布尔答案。
- context和long-answer关系以及数据构造过程不明晰,且问题较难。
emrQA(emrQA: A Large Corpus for Question Answering on Electronic Medical Records)
(混合, expert/ag,a 2 q 7.9 p 1328.4,boolean what other,74%布尔)
https://github.com/panushri25/emrQA
clinic records 需要发送邮件获得数据。
数据来自i2b2数据集的已有nlp任务的临床笔记上的专家标注。100w+qas和40w文本依据。
吸烟、家族历史、暴力、药物、症状、状况条件等。对退伍军人管理局的医生调查想从emr了解的内容(976问题),专家从71患者记录生成5696问题,来自医生进行的观察性研究中的15个原型问题。实体挖取获得680个问题模板。来自i2b2注释的整行为答案证据。(12%的问题需要外部医学知识,时间和算法推理,超过squad两倍的问题需要对多个句子进行推理,39%示例需要医学/世界知识,问题较难)
QAngaroo MedHop
(混合,crw/kg, a 1 q 3 p 9366.7 全布尔?)
数据来源drugbank,medline摘要
跨文档推理
法律:
ReClor(ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning)
(多选,experts; a 20.6 q 17.0 p 73.6,有较多非常规类问题,which other)
- 6k,问题-选项-回答-文本,选项较长。答案不在原文里。研究生管理类入学考试和法学院入学考试。
- 法律考试,多选。 答案较长,问题多为 以下哪一项。
ShARC(Interpretation of Natural Language Rules in Conversational Machine Reading)
(对话,crw,人得分较低;a 4 q 8.6 p 87.2,词汇量较少,boolean other,最多的是can)
https://sharc-data.github.io./
对话类型,依托前文的问答进行推理回答。
外语:
RACE ++(A New Multi-choice Reading Comprehension Dataset for Curriculum Learning)
(多选,experts;a 6.3 q 12.0 p 329.5,what which other), RACE-C 大学 RACE-M 初中 RACE-H 高中 外语入学考试。1w+
https://github.com/mrcdata/race-c/
- \ue011非法字符等。答案不在原文中。文章-问题-选项-答案。这个数据集仅大学英语入学考试。
RACE(RACE: Large-scale ReAding comprehension dataset from examinations)
https://www.cs.cmu.edu/~glai1/data/race/
- 英语考试,多选。初高中英语入学考试。
- 文本较难,故事科学文章等阅读理解题。问题有部分__或“作者认为:”等类完型问题类型。
博客/故事类:
CosmosQA (Cosmos QA : Machine Reading Comprehension with Contextual Commonsense Reasoning)
(多选,crw,需要常识辅助推理、why较多; a 8.1 q 10.6 p 70.4,what why how)
https://github.com/wilburOne/cosmosqa/tree/master
数据源自Spinn3r博客。标注者写问题和答案,事件原因、事件影响、关于实体的事实、反事实。问题里部分多为代词而不是具体的人名。35210。
- 文本-问题-答案是token split格式,符号被分隔开了。
- 文本较难,是人写的,部分语句较难理解。有部分较难的推理式问题,比如后续可能会发生什么,或者需要靠背景知识回答的,问题较难。
- 答案算是比较选项选出来的,直接看答案有些可能跟问题不是特别强相关或不够细节。
- 文本较口语化较难且感觉部分表述不完整。
- 答案不在原文中。问题分布多为故事博客类。文章-问题-选项-答案。
MCScript2.0
(多选,crw,when较多;a 3.4 q 8.2 p 164.4 ,what when where) 只有non-factoid类问题
stack-overflow论坛:
Quasar-S
(完型,ag;a: 1.5 q 24.3 p 2k+,other what which 有较多非常规问题40%)(人得分较低)
所有答案所属的候选列表,Quasar背景语料库:ClueWeb09 完型类型
ClueWeb09:
Quasar-T(Quasar: Datasets for Question Answering by Search and Reading)
(混合 抽取,ag;a: 1.9 q 11.1 p 2k+,非单词非ascii比例较多28%,链接较多6%,other 有较多非常规问题98%) (该任务人得分较低)
http://curtis.ml.cmu.edu/datasets/quasar/
从每个问题的上下文中提取的单独名词短语列表。["1tok"表示答案是单个单词, "yes-answer-long"表示答案在长passage里, "yes-answer-short"表示答案在短passage里]。annotations.json有标注答案的实体类型和问题的领域类型。时间/人物/位置/数值/其他,数学科学/艺术/语言/食物/电影音乐/运动/常规/历史宗教/人物场所,uid sxqxxx
开放域,43k个琐事问题答案,来自不同的互联网资源,ClueWeb09。Reddit用户007craft收集的54k问题,自由式回答问题,难度不一。每个问题用ClueWeb09检索前100相关html文档,jericho6提取明文,长文档[:2048]字符,短文档stanfordnlp切分截断200字符。
- 答案不在原文中。问题-答案-多文档。问题多为琐事问题。
社交媒体:
TweetQA (TWEETQA: A Social Media Focused Question Answering Dataset)
(生成,crw;what;a 2.70 q 8.02 p 31.93)只有non-factoid的问题
推文抓取、问答撰写、答案验证。提取cnn和nbc中嵌在新闻中的tweet块,获得信息性推文,从主页快照提取所有url。每个人类智能任务hit,标注者阅读三条推文,每条推文两对儿问答,表情符号也是重要信息,没有yes no问题。答案验证:另一组标注者看问题和推文标记是否可回答。
- 问题多为事件情景任务类。推文-问题-1/2回答。
- 两个不一样回答有相似的$ 250k 250k也有不相似的'all flesh shall see it together', 'all flesh',有的回答有标点有的没有。
- 文本过短且噪音较多(时间,@等)。
J!Archive.com:
SearchQA(Searchqa: A new q&a dataset augmented with context from a search engine)
(混合,crw/ag,陈述句问题,有非事实多主题多文档,a:2 q 16.7 p 58.7,非单词非ascii比例较多27%,other boolean,较多非常规问题98%)
https://github.com/nyu-dl/dl4ir-searchQA
https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/
反映通用问题,来源J!Archieve网站的问答,用google检索增强的文档。
在J1Archive中收集了电视节目Jeopardy的全部问答对儿14w+,然后从google检索问题,得到问题相关的网页,只保留答案长度不超过三个单词的元组,删除不包含答案的文档。
全部数据源:
注:以下结果大部分来自综述内容。
问题类型:布尔,多选,抽取,生成,对话推理,混合
答案类型/文段类型
数据构建方式:众包crw/专家experts/人工ug/自动ag/知识图谱kg
领域:百科、电影/剧本、网络文档、社区、书籍/故事
其他:各字段长度,内容分布
数据来源:
维基百科:
WikiQA(多选,ug/crw,有no answer; a -),
BoolQ (布尔,ug/crw; a - q 8),
SQuAD (抽取,crw; a 3.5) - SQuAD2.0,
WikiSuggest(生成,crw/ag),
TriviaQA (生成,trivia/crw;which;a 2.3,有较多非常规类问题),
TurkQA(混合,crw),
WikiReading (混合,ag-kg,查询类问题,问题较短,有no answer,有多主题; a 2.2;非单词非ascii比例较多50.1%),
QAngaroo WikiHop(混合,crw/kg,问题较短),
QuAC(混合,crw; a 14.1) ,
NaturalQuestions (混合,ug/crw,a 164.56,回答较长;who较多,有较多非常规类问题),
TyDi - R^3(混合,crw,where问题多,多语言?a 4.6;非单词非ascii比例较多31% who how多),
DROP(混合,crw; a 4 p 246.2 q 12.2; how much how many问题较多),
HotpotQA (混合,crw,跨文段推理; a 2.4 , q 20, p 1100.7;非单词非ascii比例较多45%,有较多非常规类问题),
网络文档:
MS MARCO ( 生成,ug/hg,有多文档, 有no answer;what; a 11.1,有较多非常规类问题)
新闻:
CNN/DailyMail(完型,ag),
WhoDidWhat(完型,ag),
NewsQA (抽取,crw,问题-文本来源不同;a 5 q 7.8 p 749.2),
CoQA (对话,crw,有no answer),
MultiRC(多选,crw),
ReCoRD(完型,ag; a 20.6),
QuAIL (多选,crw/experts;a 4.36)
书籍:
ChildrenBookTest(完型,ag),
BookTest(完型,ag),
LAMBADA(生成,crw/ag; a 1 布尔类?),
CoQA(对话,crw,有no answer; a 2.9 q 6.5),
Shmoop(完型,er/ag),
SciQ(多选,crw,科学)
电影/剧本:
MovieQA(多选,annotators),
WikiMovies(生成,crw/ag/kg;what;a 6.8),
DuoRC (混合,crw,电影描述来源于wiki和imdb, 有no answer,有非事实类;a 3.1,多who whose)
以上混合:
MultiRC
NarrativeQA (生成,hg,问题-文本来源不同;what;a 4.8;who较多 how)
医疗:
CliCR(完型,ag,人得分较低, a 3.4 q 22.6 p 1411.7),
MedQA(多选,expert; a 43.2 q 27.4 p 4.2, 有较多非常规类问题),
PubMedQuestions(布尔,crw , a - q 15.1 p 73.8),
emrQA(混合, expert/ag,a 2 q 7.9 p 1328.4),
QAngaroo MedHop(混合,crw/kg, a 1 q 3 p 9366.7)
法律:
ShARC(对话,crw,人得分较低;a 4 词汇量较少)
外语考试:
DREAM (多选,experts; a 5.3,词汇量较少较短),
RACE (多选,experts;a 6.3 which较多), RACE-C RACE-M RACE-H
律法考试:
ReClor (多选,experts; a 20.6 多which,有较多非常规类问题)
医学考试:
MedQA (多选,expert; a 43.2 q 27 p 4.2?, 有较多非常规类问题)
博客(故事类):
MCScript - MCScript2.0 (多选,crw,when较多;a 3.4 多when),
CosmosQA(多选,crw,需要常识辅助推理、why较多; a 8.1 q 10.6 多when)
stack-overflow论坛:
Quasar(人得分较低) Quasar-T(混合,ag;a: 1.9) Quasar-S(完型,ag;a: 1.5)
quora:
QuAIL(多选,crw/experts; a 4.36)
tweet:
TweetQA(生成,crw;what;a 2.70)
亚马逊评论:
AmazonQA - AmazonYesNo(布尔,ug)(较多语法拼写错误)
烹饪网站:
RecipeQA(完型,ag)
有的使用同一主题的不同文本作为段落和生成问题,避免段落和问题间的重复。如newsqa使用摘要生成问题,原文是文段;还有narrativeqa;mcscript问题段落由不同人的相同脚本构建
J!Archive: SearchQA(混合,crw/ag,陈述句问题,有非事实多主题多文档,a:2 较多非常规问题49.6%)
- 点赞
- 收藏
- 关注作者
评论(0)