- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

英语阅读理解公开数据源整理分析

yd_276523017 发表于 2023/06/12 12:00:06 2023/06/12

【摘要】英语阅读理解公开数据源整理分析参考：English Machine Reading Comprehension Datasets: A Survey注：括号里的基本来自上述参考综述里的统计指标，元素为任务类型/数据来源/a回答长度/q问题长度/p段落长度。下文主要为数据源类型-数据集名称-数据集相关信息（数据源论文、链接，数据构造方式，数据分布等）。部分数据源未细致分析，可参考上述综述文...

英语阅读理解公开数据源整理分析

参考：English Machine Reading Comprehension Datasets: A Survey

注：

括号里的基本来自上述参考综述里的统计指标，元素为任务类型/数据来源/a回答长度/q问题长度/p段落长度。

下文主要为数据源类型-数据集名称-数据集相关信息（数据源论文、链接，数据构造方式，数据分布等）。

部分数据源未细致分析，可参考上述综述文件介绍。

部分数据源构建方式为个人参考数据源源论文理解获得，部分未详细分析，可参考相关数据集源论文。

以下数据质量分析仅基于个人理解判断，主观性较强。

问题类型：布尔，多选，抽取，生成，对话推理，混合

数据构建方式：众包crw/专家experts/人工ug/自动ag/知识图谱kg

领域：百科、电影/剧本、网络文档、社区、书籍/故事

维基百科：

SQuAD（Natural Questions: A Benchmark for Question Answering Research）

（抽取，crw; a 3.5 q 11.4 p 137.1，非单词非ascii比例较多26%， what other who） - SQuAD2.0，13w+

https://rajpurkar.github.io/SQuAD-explorer/

- 问题-文段-回答。答案在原文里。有无答案的。问题多为百科类。

BoolQ （BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions）

（布尔，ug/crw; a - q 8.8 p 109.4，绝大部分97%为boolean类问题，is，boolean other）,（回答true/false，全为反问句，回答为true/false，9427+3271）。问题多为百科类。

https://github.com/google-research-datasets/boolean-questions

问题在google上查找，获取前5个wiki页面，人工写答案（判断是否是好问题、从wiki抽一个答案依据的段落，如果wiki没有包含答案则not answerable，回答yes/no）。

- 问题开头没有大写，问题全小写（包括专有名词），问题末尾无标点，只有yes/no没有reason。

- 问题-文段-回答。有的问题/答案不在文本里。问题多为百科类。

TriviaQA（TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension）

（生成，trivia/crw；which；a 2.3 q 16.4 p 3867.6，非单词非ascii比例较多45%，other which what，49%非常规问题，13k+）

http://nlp.cs.washington.edu/triviaqa/

人工撰写的问答对儿，文本从web和wiki回顾性收集（新闻、百科、博客）（bing搜索或者问题中实体的wiki，取排名前十的）

- 文本数据需清洗，比如来自web的youtube数据有其他网站来源或常规模板等前缀等

- 问题-回答-多个文段。问题分布多为角色人物事件类。答案不知道在不在原文里，但短答案可能都在，有答案的别名（alias）等。

Natural Questions （Natural Questions: A Benchmark for Question Answering Research）

（混合抽取，ug/crw，a 164.56 q 9.36 p 7312.13，回答较长；who较多，有较多非常规类问题，非单词非ascii比例较多30%，链接较多12%，who other what），307373。

（google搜索问题的包含wiki的前5回答），annotations里的long answer是wiki原生html的片段，有可能有表格等不友好形式，短回答从长回答中抽取，可以标记为无答案，是标注者人工标注的。（综述里回答长度平均长度应该是长回答的？短回答没那么长。）

- long answer和annotation里的html格式提取净化麻烦，有table等不友好格式，回答也有```开头结尾等需要处理。

- 答案在原文里。问题-文段（html文本）-长短多个回答。问题分布多为百科类。

WikiQA（WikiQA: A Challenge Dataset for Open-Domain Question Answering）

（多选，ug/crw; a – q 6.5 p 252.6 what who when）

https://www.microsoft.com/en-us/download/confirmation.aspx?id=52419

3047个问题，bing查询日志采样，点击wiki认为相关，文章页面的摘要所有句子为候选，答案为整个句子，不是准确答案，标注者标注是否为正确答案。

TyDi （TYDI QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages）

（混合，crw，where问题多，多语言，a 4.6 q 8.3 p 3694.2；非单词非ascii比例较多31% what when how多）。

https://github.com/google-research-datasets/tydiqa#download-the-dataset

根据wiki前100字符的简短prompt，标注者写他们感兴趣的/没有被prompt回答的问题，对问题google检索，返回top1 wiki，给标注者问题-wiki，选出段落-答案，或指出no answer。英文共3697 + 440个。

- 需要通过langid筛选出英文的数据，gold task任务数据直接是文本和gold passage，primary则是token-index和原doc和passage_candidates，选择使用后者（综述里的p长度应该是primary task的）；多语言，英文较少。

- 问题-文本-多个回答。答案在原文/是否/其他。问题多为百科类。

WikiReading （WikiReading: A Novel Large-scale Language Understanding Task over Wikipedia）

（混合，ag-kg，查询类问题，问题较短，有no answer，有多主题; a 2.2 q 2.35 p 569；非单词非ascii比例较多50.1%）

https://github.com/google-research-datasets/wiki-reading，

- 文档-问题（property）-答案，property为”country””start time””original language of work”等。问题为实体属性名字，如”country””start time”等不是完整的句子，类似知识图谱查询，不是传统问答的问题格式。

HotpotQA（HOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering）

（混合，crw，跨文段推理多跳问题/比较问题; a 2.4 , q 20, p 1100.7；非单词非ascii比例较多45%，other what which，有较多非常规问题42%），112779

https://hotpotqa.github.io/

问题-答案-多个文段-文段里支撑答案的句子。给定上下文段落/整个web，qa系统提取一段文本来回答问题。20000

比较问题（是否问题子集）构建：42个相似实体列表，从同一列表随机抽取两个段落，呈现给crw。（A-uk，B-us，不会问a还是b来自uk，而是问a和b是否来自同一个国家）

从人群工作者中收集决定答案的句子。从Amazon Mechanical Turk中贡献最大的turker中随机抽取问题，train-easy单跳。桥实体 38% 比较 20% 多实体 29% 桥实体属性 2% 其他多跳 7%，单跳2%，不可回答2%。

多跳推理构建：wiki中超链接通常包含上下文相关的不同实体；第一段包含很多有意义的查询信息，从第一段中提取所有超链接，构建图，生成段落对儿，a->b b来着收集的一组wiki中适合当桥实体的页面，桥实体决定a b共享上下文的主题。

- 问题-答案-支撑事实（短语/句子部分-依据的context 段落名,句子编号），所有wiki entity-sentences组成的contexts。答案自原文（比较短）/是否

网络文档：

MS MARCO （MS MARCO: A Human Generated MAchine Reading COmprehension Dataset）

（生成，ug/hg，有多文档，有no answer；what; a 11.1 q 6.5 p 65.9，非单词非ascii比例较多28%，what other how，有较多非常规类问题26%）

https://microsoft.github.io/msmarco/#qna https://huggingface.co/datasets/ms_marco

从bing查询日志得到101k问题，每个问题有1个人工生成的答案和182669个人工重写的答案，包含884k段落（从bing356k文档中提取）。问题可能有答案可能没有。是否可回答- 问题加上下文段落生成格式良好的答案 – 给定问题bing检索到的段落排序。

问题类型：描述53% 数值26% 实体8.8% 位置6% 人物5.7%（机器学习分类的）。一个问题10个bing检索出来的文章，is_selected标识段落是否有答案“No Answer Present.”。答案是人工撰写的。

答案重写：答案语法错误/答案与段落大量重叠/没有问题和段落上下文时就无法理解答案，如杯子里的勺子-6->杯子里有6个勺子

- 问题-答案-多个文章段落（is_selected）。答案不是来自原文。问题多为百科类。

新闻/故事：

NewsQA（NewsQA: A Machine Comprehension Dataset）

（抽取，crw，问题-文本来源不同；a 5 q 7.8 p 749.2，what who other），10w+

https://www.microsoft.com/en-us/research/project/newsqa-dataset/

https://cs.nyu.edu/~kcho/DMQA/ 对应CNN/DailyMail故事数据

https://datasets.maluuba.com/NewsQA paper所附数据源链接打不开

来自CNN的1w文章（CNN/DailyMail数据集中的文章，包含政治、经济、时事等），提问者只能根据新闻标题/摘要生成问题1->3（拒绝与摘要明显重叠的问题，这样增加了问题的发散度且可能无答案，没有why/how类问题英文答案会太长），人工生成问题答案，答案源自文章。很大一部分问题需要推理，squad与newsqa有些特征相似。回答者根据文章回答问题/无答案。第三组标注者会根据文章、问题和一组答案选出最佳答案/拒绝所有答案。

问题有时间/数值/任务/地点/共有名词/动词/短语等，答案有名词短语22%/从句18.3%/人称14.8%/数字9.8%等（斯坦福corenlp解析）。

- 问题-文章-答案匹配对儿需要通过data_generator.py生成。

- 问题多为人物/事件等新闻/故事实体，新闻故事类。答案来自原文。

QuAIL（QuAIL: Question Answering for Artificial Intelligence）

（多选 - 生成，crw/experts；a 4.36 q 9.70 p 388.29）

https://huggingface.co/datasets/quail http://text-machine.cs.uml.edu/projects/quail/（打不开）https://github.com/text-machine-lab/quail

15k问题，四个领域（新闻/博客/小说/个人故事）。解决mrc结果可能来自常识的问题。问题直接来源于文本/文本+常识，增加推理。挑战：模型决定是否有足够的证据。QuAIL是第一个针对问题类型进行平衡和注释的多领域、人工编写的qa数据集，包括无法回答/基于文本/外部知识结合的问题，只有一个上下文来自首段/精华。问题：推理/事件时间顺序/人物身份/因果/人物评定/叙述后续。文本来源于Creative Common？Quora。

train (560 texts in 4 genres, 10346 questions)；dev (120 texts in 4 genres, 2164 questions)；challenge set: (30 fiction texts, 556 questions, written to be difficult for NLP systems that learned to rely on naive lexical matching.

一篇文章，写9个多项选择答案，必须有一个正确（正确答案-合理答案），问题由crw和学生手工编辑，检查问题类型和答案正确性。

- 答案不在原文中。问题分布为新闻故事人物角色类。问题-选项-答案-文本。有答案有not enough information等字样。

- 文本较难，问题也有故事后续等推理类问题。有_或者“文章结束后作者：”这样的类完型格式。

书籍：

LAMBADA（The LAMBADA dataset: Word prediction requiring a broad discourse context）

（生成x 末尾词完型，crw/ag; a 1 q 15.4 p 58.5 布尔类？非单词非ascii比例较多25%)

https://zenodo.org/record/2630551#.ZF3u4HZByUk

数据特征：一系列叙述段落的集合，人看到整个段落可以猜到最后一个词，只看到最后一句话则不能。

SciQ（Crowdsourcing Multiple Choice Science Questions）

（多选，crw，科学，全其他类，a 1.5 q 14.6 p 87.1）

https://allenai.org/data/sciq

13k。问题-答案-干扰项-文段。答案不全在支撑依据里，有的support文段为空。科学考题。

- 有部分如图或如表的文本，偶尔有不完整的文本。

CoQA（CoQA: A Conversational Question Answering Challenge）

（对话，crw，有no answer; ~~a 2.9~~ q 6.5 p 328，what boolean who）,

https://stanfordnlp.github.io/coqa/

对话类型（依托前文问答的推理）

电影/剧本：

NarrativeQA （The NarrativeQA Reading Comprehension Challenge）

（生成 - 多选，hg，问题-文本来源不同；what；a 4.8 q 9.9 p 673.9；who较多 how，有较多非常规类问题，what who why），46765 * 2。

http://nlp.cs.washington.edu/triviaqa/

问题分布偏电影剧本/故事类（多为gutenberg、imsdb、dailyscript、awesomefilm等故事源，summary简介来自wiki，只根据摘要编写问题答案，让注释者想象回答问题的人是阅读了全部文章但没有阅读摘要的人，一个问题两个答案，答案出现在摘要里的比例44%，答案出现在故事里的比例29.57%）。问题分布多为人物故事角色演员。（笑死，说基于摘要回答问题的任务在范围上与以前的数据集相似，但是摘要比新闻文章或网络上的短段落包含更复杂的关系和时间线）。问题类型：30.54%人，24.5%描述，9.73%地点，9.4%原因。问题-回答2-摘要-原文

There are answers that appear as spans of the summaries and the stories, 44.05% and 29.57%, respectively. As expected, lower proportion of answers are spans on stories compared to summaries on which they were constructed.

- 答案不在原文。问题分布偏电影剧本/故事类。问题-2个回答-摘要-原文。

- 文本较难，文本基本剧情较完整，问题多为wh-等。答案较短，问题类型不难难的是文本。

DuoRC （DuoRC: A Large-Scale Dataset for Paraphrased Reading Comprehension）

（混合 - 生成，crw，电影描述来源于wiki和imdb，有no answer，有非事实类；a 3.1 q 8.6 p1260.9，非单词非ascii比例较多26%，who what where）

https://duorc.github.io

18k问题对儿，来自7680电影wiki和imdb内容，让标注者从一个中写问题从另一个中提取答案。Imdb犯罪/戏剧/戏剧等前40k电影，清洁简介从wiki和imdb抓取，7680情节超100词的文本。

从imdb获取qa（短plot），对应SelfRC目录的数据；从wiki获得长回答（长plot介绍），对应ParaphraseRC目录数据。

- 文本-问题-回答。答案70%直接从原文抽取答案，30%融合。

- 文本较难，文本基本剧情较完整，问题多为wh-等，有多个回答的答案，有空答案。

医疗：

MedQA

（多选，expert; a 4.2 q 27.4 p 43.2，有较多非常规类问题）

数据不可获得。

来源于医学认证考试，医学考试。问题-备选答案-文档段落集合，目的通过访问文档确认最佳候选答案。5类500道选择题，27w+试题，文档来自32种出版物的文本材料。

CliCR

（完型，ag，人得分较低， a 3.4 q 22.6 p 1411.7，非单词非ascii比例较多25%）

https://github.com/clips/clicr/tree/master

数据获得需要发邮件。

PubMedQA（PubMedQA: A Dataset for Biomedical Research Question Answering）

（布尔生成，crw , a - q 15.1 ~~p 73.8~~，boolean other）, PubMed

https://github.com/pubmedqa/pubmedqa （还有两部分数据在google硬盘上下载）

源自PubMedQA的摘要的生物医学问答，主要是医学研究的问题（问题很专业很难）

- 问题-上下文-长答案-布尔答案。

- context和long-answer关系以及数据构造过程不明晰，且问题较难。

emrQA（emrQA: A Large Corpus for Question Answering on Electronic Medical Records）

（混合， expert/ag，a 2 q 7.9 p 1328.4，boolean what other，74%布尔）

https://github.com/panushri25/emrQA

clinic records 需要发送邮件获得数据。

数据来自i2b2数据集的已有nlp任务的临床笔记上的专家标注。100w+qas和40w文本依据。

吸烟、家族历史、暴力、药物、症状、状况条件等。对退伍军人管理局的医生调查想从emr了解的内容（976问题），专家从71患者记录生成5696问题，来自医生进行的观察性研究中的15个原型问题。实体挖取获得680个问题模板。来自i2b2注释的整行为答案证据。（12%的问题需要外部医学知识，时间和算法推理，超过squad两倍的问题需要对多个句子进行推理，39%示例需要医学/世界知识，问题较难）

QAngaroo MedHop

（混合，crw/kg， ~~a 1 q 3~~ p 9366.7 全布尔？）

数据来源drugbank，medline摘要

跨文档推理

法律：

ReClor（ReClor: A Reading Comprehension Dataset Requiring Logical Reasoning）

（多选，experts; a 20.6 q 17.0 p 73.6，有较多非常规类问题，which other）

https://whyu.me/reclor/

- 6k，问题-选项-回答-文本，选项较长。答案不在原文里。研究生管理类入学考试和法学院入学考试。

- 法律考试，多选。答案较长，问题多为以下哪一项。

ShARC（Interpretation of Natural Language Rules in Conversational Machine Reading）

（对话，crw，人得分较低；a 4 q 8.6 p 87.2，词汇量较少，boolean other，最多的是can）

https://sharc-data.github.io./

对话类型，依托前文的问答进行推理回答。

外语：

RACE ++（A New Multi-choice Reading Comprehension Dataset for Curriculum Learning）

（多选，experts；a 6.3 q 12.0 p 329.5，what which other）, RACE-C 大学 RACE-M 初中 RACE-H 高中外语入学考试。1w+

https://github.com/mrcdata/race-c/

- \ue011非法字符等。答案不在原文中。文章-问题-选项-答案。这个数据集仅大学英语入学考试。

RACE（RACE: Large-scale ReAding comprehension dataset from examinations）

https://www.cs.cmu.edu/~glai1/data/race/

- 英语考试，多选。初高中英语入学考试。

- 文本较难，故事科学文章等阅读理解题。问题有部分__或“作者认为：”等类完型问题类型。

博客/故事类：

CosmosQA （Cosmos QA : Machine Reading Comprehension with Contextual Commonsense Reasoning）

（多选，crw，需要常识辅助推理、why较多; a 8.1 q 10.6 p 70.4，what why how）

https://github.com/wilburOne/cosmosqa/tree/master

数据源自Spinn3r博客。标注者写问题和答案，事件原因、事件影响、关于实体的事实、反事实。问题里部分多为代词而不是具体的人名。35210。

- 文本-问题-答案是token split格式，符号被分隔开了。

- 文本较难，是人写的，部分语句较难理解。有部分较难的推理式问题，比如后续可能会发生什么，或者需要靠背景知识回答的，问题较难。

- 答案算是比较选项选出来的，直接看答案有些可能跟问题不是特别强相关或不够细节。

- 文本较口语化较难且感觉部分表述不完整。

- 答案不在原文中。问题分布多为故事博客类。文章-问题-选项-答案。

MCScript2.0

（多选，crw，when较多；a 3.4 q 8.2 p 164.4 ，what when where）只有non-factoid类问题

stack-overflow论坛：

Quasar-S

（完型，ag；a: 1.5 q 24.3 p 2k+，other what which 有较多非常规问题40%）（人得分较低）

所有答案所属的候选列表，Quasar背景语料库：ClueWeb09 完型类型

ClueWeb09：

Quasar-T（Quasar: Datasets for Question Answering by Search and Reading）

（混合抽取，ag；a: 1.9 q 11.1 p 2k+，非单词非ascii比例较多28%，链接较多6%，other 有较多非常规问题98%）（该任务人得分较低）

http://curtis.ml.cmu.edu/datasets/quasar/

从每个问题的上下文中提取的单独名词短语列表。["1tok"表示答案是单个单词, "yes-answer-long"表示答案在长passage里, "yes-answer-short"表示答案在短passage里]。annotations.json有标注答案的实体类型和问题的领域类型。时间/人物/位置/数值/其他，数学科学/艺术/语言/食物/电影音乐/运动/常规/历史宗教/人物场所，uid sxqxxx

开放域，43k个琐事问题答案，来自不同的互联网资源，ClueWeb09。Reddit用户007craft收集的54k问题，自由式回答问题，难度不一。每个问题用ClueWeb09检索前100相关html文档，jericho6提取明文，长文档[:2048]字符，短文档stanfordnlp切分截断200字符。

- 答案不在原文中。问题-答案-多文档。问题多为琐事问题。

社交媒体：

TweetQA （TWEETQA: A Social Media Focused Question Answering Dataset）

（生成，crw；what；a 2.70 q 8.02 p 31.93）只有non-factoid的问题

https://tweetqa.github.io/

推文抓取、问答撰写、答案验证。提取cnn和nbc中嵌在新闻中的tweet块，获得信息性推文，从主页快照提取所有url。每个人类智能任务hit，标注者阅读三条推文，每条推文两对儿问答，表情符号也是重要信息，没有yes no问题。答案验证：另一组标注者看问题和推文标记是否可回答。

- 问题多为事件情景任务类。推文-问题-1/2回答。

- 两个不一样回答有相似的$ 250k 250k也有不相似的'all flesh shall see it together', 'all flesh'，有的回答有标点有的没有。

- 文本过短且噪音较多（时间，@等）。

J!Archive.com：

SearchQA（Searchqa: A new q&a dataset augmented with context from a search engine）

（混合，crw/ag，陈述句问题，有非事实多主题多文档，~~a:2~~ q 16.7 p 58.7，非单词非ascii比例较多27%，other boolean，较多非常规问题98%）

https://github.com/nyu-dl/dl4ir-searchQA

https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

反映通用问题，来源J!Archieve网站的问答，用google检索增强的文档。

在J1Archive中收集了电视节目Jeopardy的全部问答对儿14w+，然后从google检索问题，得到问题相关的网页，只保留答案长度不超过三个单词的元组，删除不包含答案的文档。

全部数据源：

注：以下结果大部分来自综述内容。

问题类型：布尔，多选，抽取，生成，对话推理，混合

答案类型/文段类型

数据构建方式：众包crw/专家experts/人工ug/自动ag/知识图谱kg

领域：百科、电影/剧本、网络文档、社区、书籍/故事

其他：各字段长度，内容分布

数据来源：

维基百科：

WikiQA（多选，ug/crw，有no answer; a -），

BoolQ （布尔，ug/crw; a - q 8），

SQuAD （抽取，crw; a 3.5） - SQuAD2.0，

WikiSuggest（生成，crw/ag），

TriviaQA （生成，trivia/crw；which；a 2.3，有较多非常规类问题），

TurkQA（混合，crw），

WikiReading （混合，ag-kg，查询类问题，问题较短，有no answer，有多主题; a 2.2；非单词非ascii比例较多50.1%），

QAngaroo WikiHop（混合，crw/kg，问题较短），

QuAC（混合，crw; a 14.1），

NaturalQuestions （混合，ug/crw，a 164.56，回答较长；who较多，有较多非常规类问题），

TyDi - R^3（混合，crw，where问题多，多语言？a 4.6；非单词非ascii比例较多31% who how多），

DROP（混合，crw; a 4 p 246.2 q 12.2； how much how many问题较多），

HotpotQA （混合，crw，跨文段推理; a 2.4 , q 20, p 1100.7；非单词非ascii比例较多45%，有较多非常规类问题）,

网络文档：

MS MARCO （生成，ug/hg，有多文档，有no answer；what; a 11.1，有较多非常规类问题）

新闻：

CNN/DailyMail（完型，ag）,

WhoDidWhat（完型，ag）,

NewsQA （抽取，crw，问题-文本来源不同；a 5 q 7.8 p 749.2）,

CoQA （对话，crw，有no answer）,

MultiRC（多选，crw）,

ReCoRD（完型，ag; a 20.6）,

QuAIL （多选，crw/experts；a 4.36）

书籍：

ChildrenBookTest（完型，ag）,

BookTest（完型，ag）,

LAMBADA（生成，crw/ag; a 1 布尔类？)，

CoQA（对话，crw，有no answer; a 2.9 q 6.5）,

Shmoop（完型，er/ag）,

SciQ（多选，crw，科学）

电影/剧本：

MovieQA（多选，annotators）,

WikiMovies（生成，crw/ag/kg；what；a 6.8）,

DuoRC （混合，crw，电影描述来源于wiki和imdb，有no answer，有非事实类；a 3.1，多who whose）

以上混合：

MultiRC

NarrativeQA （生成，hg，问题-文本来源不同；what；a 4.8；who较多 how）

医疗：

CliCR（完型，ag，人得分较低， a 3.4 q 22.6 p 1411.7）,

MedQA（多选，expert; a 43.2 q 27.4 ~~p 4.2~~，有较多非常规类问题）,

PubMedQuestions（布尔，crw , a - q 15.1 ~~p 73.8~~）,

emrQA（混合， expert/ag，a 2 q 7.9 p 1328.4）,

QAngaroo MedHop（混合，crw/kg， a 1 q 3 p 9366.7）

法律：

ShARC（对话，crw，人得分较低；a 4 词汇量较少）

外语考试：

DREAM （多选，experts; a 5.3，词汇量较少较短）,

RACE （多选，experts；a 6.3 which较多）, RACE-C RACE-M RACE-H

律法考试：

ReClor （多选，experts; a 20.6 多which，有较多非常规类问题）

医学考试：

MedQA （多选，expert; a 43.2 q 27 ~~p 4.2~~？，有较多非常规类问题）

博客（故事类）：

MCScript - MCScript2.0 （多选，crw，when较多；a 3.4 多when）,

CosmosQA（多选，crw，需要常识辅助推理、why较多; a 8.1 q 10.6 多when）

stack-overflow论坛：

Quasar（人得分较低） Quasar-T（混合，ag；a: 1.9） Quasar-S（完型，ag；a: 1.5）

quora：

QuAIL（多选，crw/experts; a 4.36）

tweet：

TweetQA（生成，crw；what；a 2.70）

亚马逊评论：

AmazonQA - AmazonYesNo（布尔，ug）（较多语法拼写错误）

烹饪网站：

RecipeQA（完型，ag）

有的使用同一主题的不同文本作为段落和生成问题，避免段落和问题间的重复。如newsqa使用摘要生成问题，原文是文段；还有narrativeqa；mcscript问题段落由不同人的相同脚本构建

J!Archive： SearchQA（混合，crw/ag，陈述句问题，有非事实多主题多文档，a:2 较多非常规问题49.6%）

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

英语阅读理解公开数据源整理分析

英语阅读理解公开数据源整理分析

参考：English Machine Reading Comprehension Datasets: A Survey

维基百科：

网络文档：

新闻/故事：

书籍：

电影/剧本：

医疗：

法律：

外语：

博客/故事类：

stack-overflow论坛：

ClueWeb09：

社交媒体：

J!Archive.com：

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品