英语阅读理解公开数据源整理分析

举报
yd_276523017 发表于 2023/06/12 12:00:06 2023/06/12
【摘要】 英语阅读理解公开数据源整理分析参考:English Machine Reading Comprehension Datasets: A Survey注:括号里的基本来自上述参考综述里的统计指标,元素为 任务类型/数据来源/a回答长度/q问题长度/p段落长度。下文主要为 数据源类型-数据集名称-数据集相关信息(数据源论文、链接,数据构造方式,数据分布等)。部分数据源未细致分析,可参考上述综述文...

英语阅读理解公开数据源整理分析


参考:English Machine Reading Comprehension Datasets: A Survey


注:

括号里的基本来自上述参考综述里的统计指标,元素为 任务类型/数据来源/a回答长度/q问题长度/p段落长度。

下文主要为 数据源类型-数据集名称-数据集相关信息(数据源论文、链接,数据构造方式,数据分布等)。

部分数据源未细致分析,可参考上述综述文件介绍。

部分数据源构建方式为个人参考数据源源论文理解获得,部分未详细分析,可参考相关数据集源论文。

以下数据质量分析仅基于个人理解判断,主观性较强。


问题类型:布尔,多选,抽取,生成,对话推理,混合

数据构建方式:众包crw/专家experts/人工ug/自动ag/知识图谱kg

领域:百科、电影/剧本、网络文档、社区、书籍/故事


维基百科:

SQuADNatural Questions: A Benchmark for Question Answering Research

抽取,crw; a 3.5 q 11.4 p 137.1,非单词非ascii比例较多26%, what other who) - SQuAD2.0,13w+

https://rajpurkar.github.io/SQuAD-explorer/

- 问题-文段-回答答案在原文里。有无答案的。问题多为百科类


BoolQ (BoolQ: Exploring the Surprising Difficulty of Natural Yes/No Questions)

布尔,ug/crw; a - q 8.8 p 109.4,绝大部分97%为boolean类问题,is,boolean other),(回答true/false,全为反问句,回答为true/false,9427+3271)。问题多为百科类。

https://github.com/google-research-datasets/boolean-questions

问题在google上查找,获取前5个wiki页面,人工写答案(判断是否是好问题、从wiki抽一个答案依据的段落,如果wiki没有包含答案则not answerable,回答yes/no)。

- 问题开头没有大写,问题全小写(包括专有名词),问题末尾无标点,只有yes/no没有reason。

- 问题-文段-回答有的问题/答案不在文本里问题多为百科类


TriviaQATriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

生成,trivia/crw;which;a 2.3 q 16.4 p 3867.6,非单词非ascii比例较多45%,other which what,49%非常规问题,13k+)

http://nlp.cs.washington.edu/triviaqa/

人工撰写的问答对儿,文本从web和wiki回顾性收集(新闻、百科、博客)(bing搜索或者问题中实体的wiki,取排名前十的)

- 文本数据需清洗,比如来自web的youtube数据有其他网站来源或常规模板等前缀等

- 问题-回答-多个文段问题分布多为角色人物事件类。答案不知道在不在原文里,但短答案可能都在,有答案的别名(alias)等。


Natural QuestionsNatural Questions: A Benchmark for Question Answering Research

混合 抽取,ug/crw,a 164.56 q 9.36 p 7312.13,回答较长;who较多,有较多非常规类问题,非单词非ascii比例较多30%,链接较多12%,who other what),307373。

(google搜索问题的包含wiki的前5回答),annotations里的long answer是wiki原生html的片段,有可能有表格等不友好形式,短回答从长回答中抽取,可以标记为无答案,是标注者人工标注的。(综述里回答长度平均长度应该是长回答的?短回答没那么长。)

- long answer和annotation里的html格式提取净化麻烦,有table等不友好格式,回答也有```开头结尾等需要处理。

- 答案在原文里问题-文段(html文本)-长短多个回答问题分布多为百科类


WikiQAWikiQA: A Challenge Dataset for Open-Domain Question Answering

多选,ug/crw; a – q 6.5 p 252.6 what who when)

https://www.microsoft.com/en-us/download/confirmation.aspx?id=52419

3047个问题,bing查询日志采样,点击wiki认为相关,文章页面的摘要所有句子为候选,答案为整个句子,不是准确答案,标注者标注是否为正确答案。


TyDiTYDI QA: A Benchmark for Information-Seeking Question Answering in Typologically Diverse Languages

混合,crw,where问题多,多语言,a 4.6 q 8.3 p 3694.2;非单词非ascii比例较多31% what when how多)。

https://github.com/google-research-datasets/tydiqa#download-the-dataset

根据wiki前100字符的简短prompt,标注者写他们感兴趣的/没有被prompt回答的问题,对问题google检索,返回top1 wiki,给标注者问题-wiki,选出段落-答案,或指出no answer。英文共3697 + 440个。

- 需要通过langid筛选出英文的数据,gold task任务数据直接是文本和gold passage,primary则是token-index和原doc和passage_candidates,选择使用后者(综述里的p长度应该是primary task的);多语言,英文较少。

- 问题-文本-多个回答答案在原文/是否/其他。问题多为百科类


WikiReadingWikiReading: A Novel Large-scale Language Understanding Task over Wikipedia

混合,ag-kg,查询类问题,问题较短,有no answer,有多主题; a 2.2 q 2.35 p 569;非单词非ascii比例较多50.1%)

https://github.com/google-research-datasets/wiki-reading

- 文档-问题(property)-答案,property为”country””start time””original language of work”等。问题为实体属性名字,如”country””start time”等不是完整的句子,类似知识图谱查询,不是传统问答的问题格式。


HotpotQAHOTPOTQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

混合,crw,跨文段推理 多跳问题/比较问题; a 2.4 , q 20, p 1100.7;非单词非ascii比例较多45%,other what which,有较多非常规问题42%),112779

https://hotpotqa.github.io/

问题-答案-多个文段-文段里支撑答案的句子。给定上下文段落/整个web,qa系统提取一段文本来回答问题。20000

比较问题(是否问题子集)构建:42个相似实体列表,从同一列表随机抽取两个段落,呈现给crw。(A-uk,B-us,不会问a还是b来自uk,而是问a和b是否来自同一个国家)

从人群工作者中收集决定答案的句子。从Amazon Mechanical Turk中贡献最大的turker中随机抽取问题,train-easy单跳。桥实体 38% 比较 20% 多实体 29% 桥实体属性 2% 其他多跳 7%,单跳2%,不可回答2%。

多跳推理构建:wiki中超链接通常包含上下文相关的不同实体;第一段包含很多有意义的查询信息,从第一段中提取所有超链接,构建图,生成段落对儿,a->b b来着收集的一组wiki中适合当桥实体的页面,桥实体决定a b共享上下文的主题。

- 问题-答案-支撑事实(短语/句子部分-依据的context 段落名,句子编号),所有wiki entity-sentences组成的contexts。答案自原文(比较短)/是否


网络文档:

MS MARCOMS MARCO: A Human Generated MAchine Reading COmprehension Dataset

生成,ug/hg,有多文档, 有no answer;what; a 11.1 q 6.5 p 65.9,非单词非ascii比例较多28%,what other how,有较多非常规类问题26%)

https://microsoft.github.io/msmarco/#qna https://huggingface.co/datasets/ms_marco

从bing查询日志得到101k问题,每个问题有1个人工生成的答案和182669个人工重写的答案,包含884k段落(从bing356k文档中提取)。问题可能有答案可能没有。是否可回答- 问题加上下文段落生成格式良好的答案 – 给定问题bing检索到的段落排序。

问题类型:描述53% 数值26% 实体8.8% 位置6% 人物5.7%(机器学习分类的)。一个问题10个bing检索出来的文章,is_selected标识段落是否有答案“No Answer Present.”。答案是人工撰写的。

答案重写:答案语法错误/答案与段落大量重叠/没有问题和段落上下文时就无法理解答案,如杯子里的勺子-6->杯子里有6个勺子

- 问题-答案-多个文章段落(is_selected)。答案不是来自原文问题多为百科类


新闻/故事:

NewsQANewsQA: A Machine Comprehension Dataset

抽取,crw,问题-文本来源不同;a 5 q 7.8 p 749.2,what who other),10w+

https://www.microsoft.com/en-us/research/project/newsqa-dataset/

https://cs.nyu.edu/~kcho/DMQA/ 对应CNN/DailyMail故事数据

https://datasets.maluuba.com/NewsQA paper所附数据源链接打不开

来自CNN的1w文章(CNN/DailyMail数据集中的文章,包含政治、经济、时事等),提问者只能根据新闻标题/摘要生成问题1->3(拒绝与摘要明显重叠的问题,这样增加了问题的发散度且可能无答案,没有why/how类问题英文答案会太长),人工生成问题答案,答案源自文章。 很大一部分问题需要推理,squad与newsqa有些特征相似。回答者根据文章回答问题/无答案。第三组标注者会根据文章、问题和一组答案选出最佳答案/拒绝所有答案。

问题有时间/数值/任务/地点/共有名词/动词/短语等,答案有名词短语22%/从句18.3%/人称14.8%/数字9.8%等(斯坦福corenlp解析)。

- 问题-文章-答案匹配对儿需要通过data_generator.py生成。

- 问题多为人物/事件等新闻/故事实体,新闻故事类答案来自原文


QuAILQuAIL: Question Answering for Artificial Intelligence

多选 - 生成,crw/experts;a 4.36 q 9.70 p 388.29)

https://huggingface.co/datasets/quail http://text-machine.cs.uml.edu/projects/quail/(打不开)https://github.com/text-machine-lab/quail

15k问题,四个领域(新闻/博客/小说/个人故事)。解决mrc结果可能来自常识的问题。问题直接来源于文本/文本+常识,增加推理。挑战:模型决定是否有足够的证据。QuAIL是第一个针对问题类型进行平衡和注释的多领域、人工编写的qa数据集,包括无法回答/基于文本/外部知识结合的问题,只有一个上下文来自首段/精华。问题:推理/事件时间顺序/人物身份/因果/人物评定/叙述后续。文本来源于Creative Common?Quora。

train (560 texts in 4 genres, 10346 questions);dev (120 texts in 4 genres, 2164 questions);challenge set: (30 fiction texts, 556 questions, written to be difficult for NLP systems that learned to rely on naive lexical matching.

一篇文章,写9个多项选择答案,必须有一个正确(正确答案-合理答案),问题由crw和学生手工编辑,检查问题类型和答案正确性。

- 答案不在原文中问题分布为新闻故事人物角色类问题-选项-答案-文本。有答案有not enough information等字样。

- 文本较难,问题也有故事后续等推理类问题。有_或者“文章结束后作者:”这样的类完型格式。


书籍:

LAMBADAThe LAMBADA dataset: Word prediction requiring a broad discourse context

生成x 末尾词完型,crw/ag; a 1 q 15.4 p 58.5 布尔类?非单词非ascii比例较多25%)

https://zenodo.org/record/2630551#.ZF3u4HZByUk

数据特征:一系列叙述段落的集合,人看到整个段落可以猜到最后一个词,只看到最后一句话则不能。


SciQCrowdsourcing Multiple Choice Science Questions

多选,crw,科学,全其他类,a 1.5 q 14.6 p 87.1)

https://allenai.org/data/sciq

13k。问题-答案-干扰项-文段答案不全在支撑依据里,有的support文段为空。科学考题。

- 有部分如图或如表的文本,偶尔有不完整的文本。


CoQACoQA: A Conversational Question Answering Challenge

对话,crw,有no answer; a 2.9 q 6.5 p 328,what boolean who),

https://stanfordnlp.github.io/coqa/

对话类型(依托前文问答的推理)


电影/剧本:

NarrativeQAThe NarrativeQA Reading Comprehension Challenge

生成 - 多选,hg,问题-文本来源不同;what;a 4.8 q 9.9 p 673.9;who较多 how,有较多非常规类问题,what who why),46765 * 2。

http://nlp.cs.washington.edu/triviaqa/

问题分布偏电影剧本/故事类(多为gutenberg、imsdb、dailyscript、awesomefilm等故事源,summary简介来自wiki,只根据摘要编写问题答案,让注释者想象回答问题的人是阅读了全部文章但没有阅读摘要的人,一个问题两个答案,答案出现在摘要里的比例44%,答案出现在故事里的比例29.57%)。问题分布多为人物故事角色演员。(笑死,说基于摘要回答问题的任务在范围上与以前的数据集相似,但是摘要比新闻文章或网络上的短段落包含更复杂的关系和时间线)。问题类型:30.54%人,24.5%描述,9.73%地点,9.4%原因。问题-回答2-摘要-原文

There are answers that appear as spans of the summaries and the stories, 44.05% and 29.57%, respectively. As expected, lower proportion of answers are spans on stories compared to summaries on which they were constructed.

- 答案不在原文问题分布偏电影剧本/故事类问题-2个回答-摘要-原文

- 文本较难,文本基本剧情较完整,问题多为wh-等。答案较短,问题类型不难难的是文本。


DuoRCDuoRC: A Large-Scale Dataset for Paraphrased Reading Comprehension

混合 - 生成,crw,电影描述来源于wiki和imdb, 有no answer,有非事实类;a 3.1 q 8.6 p1260.9,非单词非ascii比例较多26%,who what where)

https://duorc.github.io

18k问题对儿,来自7680电影wiki和imdb内容,让标注者从一个中写问题从另一个中提取答案。Imdb犯罪/戏剧/戏剧等前40k电影,清洁简介从wiki和imdb抓取,7680情节超100词的文本。

从imdb获取qa(短plot),对应SelfRC目录的数据;从wiki获得长回答(长plot介绍),对应ParaphraseRC目录数据。

- 文本-问题-回答答案70%直接从原文抽取答案,30%融合

- 文本较难,文本基本剧情较完整,问题多为wh-等,有多个回答的答案,有空答案。


医疗:

MedQA

多选,expert; a 4.2 q 27.4 p 43.2,有较多非常规类问题)

数据不可获得。

来源于医学认证考试,医学考试。问题-备选答案-文档段落集合,目的通过访问文档确认最佳候选答案。5类500道选择题,27w+试题,文档来自32种出版物的文本材料。


CliCR

完型,ag,人得分较低, a 3.4 q 22.6 p 1411.7,非单词非ascii比例较多25%

https://github.com/clips/clicr/tree/master

数据获得需要发邮件。


PubMedQAPubMedQA: A Dataset for Biomedical Research Question Answering

布尔 生成,crw , a - q 15.1 p 73.8,boolean other), PubMed

https://github.com/pubmedqa/pubmedqa (还有两部分数据在google硬盘上下载)

源自PubMedQA的摘要的生物医学问答,主要是医学研究的问题(问题很专业很难)

- 问题-上下文-长答案-布尔答案

- context和long-answer关系以及数据构造过程不明晰,且问题较难。


emrQAemrQA: A Large Corpus for Question Answering on Electronic Medical Records

混合, expert/ag,a 2 q 7.9 p 1328.4,boolean what other,74%布尔)

https://github.com/panushri25/emrQA

clinic records 需要发送邮件获得数据

数据来自i2b2数据集的已有nlp任务的临床笔记上的专家标注。100w+qas和40w文本依据。

吸烟、家族历史、暴力、药物、症状、状况条件等。对退伍军人管理局的医生调查想从emr了解的内容(976问题),专家从71患者记录生成5696问题,来自医生进行的观察性研究中的15个原型问题。实体挖取获得680个问题模板。来自i2b2注释的整行为答案证据。(12%的问题需要外部医学知识,时间和算法推理,超过squad两倍的问题需要对多个句子进行推理,39%示例需要医学/世界知识,问题较难)


QAngaroo MedHop

混合,crw/kg, a 1 q 3 p 9366.7 全布尔?)

数据来源drugbank,medline摘要

跨文档推理


法律:

ReClorReClor: A Reading Comprehension Dataset Requiring Logical Reasoning

多选,experts; a 20.6 q 17.0 p 73.6,有较多非常规类问题,which other)

https://whyu.me/reclor/

- 6k,问题-选项-回答-文本,选项较长。答案不在原文里研究生管理类入学考试和法学院入学考试。

- 法律考试,多选。 答案较长,问题多为 以下哪一项。


ShARCInterpretation of Natural Language Rules in Conversational Machine Reading

对话,crw,人得分较低;a 4 q 8.6 p 87.2,词汇量较少,boolean other,最多的是can)

https://sharc-data.github.io./

对话类型,依托前文的问答进行推理回答。


外语:

RACE ++A New Multi-choice Reading Comprehension Dataset for Curriculum Learning

多选,experts;a 6.3 q 12.0 p 329.5,what which other), RACE-C 大学 RACE-M 初中 RACE-H 高中 外语入学考试。1w+

https://github.com/mrcdata/race-c/

- \ue011非法字符等。答案不在原文中文章-问题-选项-答案。这个数据集仅大学英语入学考试。


RACERACE: Large-scale ReAding comprehension dataset from examinations

https://www.cs.cmu.edu/~glai1/data/race/

- 英语考试,多选初高中英语入学考试。

- 文本较难,故事科学文章等阅读理解题。问题有部分__或“作者认为:”等类完型问题类型。


博客/故事类:

CosmosQACosmos QA : Machine Reading Comprehension with Contextual Commonsense Reasoning

(多选,crw,需要常识辅助推理、why较多; a 8.1 q 10.6 p 70.4,what why how)

https://github.com/wilburOne/cosmosqa/tree/master

数据源自Spinn3r博客。标注者写问题和答案,事件原因、事件影响、关于实体的事实、反事实。问题里部分多为代词而不是具体的人名。35210。

- 文本-问题-答案是token split格式,符号被分隔开了。

- 文本较难,是人写的,部分语句较难理解。有部分较难的推理式问题,比如后续可能会发生什么,或者需要靠背景知识回答的,问题较难。

- 答案算是比较选项选出来的,直接看答案有些可能跟问题不是特别强相关或不够细节。

- 文本较口语化较难且感觉部分表述不完整。

- 答案不在原文中问题分布多为故事博客类文章-问题-选项-答案


MCScript2.0

多选,crw,when较多;a 3.4 q 8.2 p 164.4 ,what when where) 只有non-factoid类问题


stack-overflow论坛:

Quasar-S

完型,ag;a: 1.5 q 24.3 p 2k+,other what which 有较多非常规问题40%)(人得分较低)

所有答案所属的候选列表,Quasar背景语料库:ClueWeb09 完型类型


ClueWeb09:

Quasar-TQuasar: Datasets for Question Answering by Search and Reading

混合 抽取,ag;a: 1.9 q 11.1 p 2k+,非单词非ascii比例较多28%,链接较多6%,other 有较多非常规问题98%) (该任务人得分较低)

http://curtis.ml.cmu.edu/datasets/quasar/

从每个问题的上下文中提取的单独名词短语列表。["1tok"表示答案是单个单词, "yes-answer-long"表示答案在长passage里, "yes-answer-short"表示答案在短passage里]。annotations.json有标注答案的实体类型和问题的领域类型。时间/人物/位置/数值/其他,数学科学/艺术/语言/食物/电影音乐/运动/常规/历史宗教/人物场所,uid sxqxxx

开放域,43k个琐事问题答案,来自不同的互联网资源,ClueWeb09。Reddit用户007craft收集的54k问题,自由式回答问题,难度不一。每个问题用ClueWeb09检索前100相关html文档,jericho6提取明文,长文档[:2048]字符,短文档stanfordnlp切分截断200字符。

- 答案不在原文中问题-答案-多文档问题多为琐事问题


社交媒体:

TweetQATWEETQA: A Social Media Focused Question Answering Dataset

生成,crw;what;a 2.70 q 8.02 p 31.93)只有non-factoid的问题

https://tweetqa.github.io/

推文抓取、问答撰写、答案验证。提取cnn和nbc中嵌在新闻中的tweet块,获得信息性推文,从主页快照提取所有url。每个人类智能任务hit,标注者阅读三条推文,每条推文两对儿问答,表情符号也是重要信息,没有yes no问题。答案验证:另一组标注者看问题和推文标记是否可回答。

- 问题多为事件情景任务类推文-问题-1/2回答

- 两个不一样回答有相似的$ 250k 250k也有不相似的'all flesh shall see it together', 'all flesh',有的回答有标点有的没有。

- 文本过短且噪音较多(时间,@等)。


J!Archive.com:

SearchQASearchqa: A new q&a dataset augmented with context from a search engine

(混合,crw/ag,陈述句问题,有非事实多主题多文档,a:2 q 16.7 p 58.7,非单词非ascii比例较多27%,other boolean,较多非常规问题98%)

https://github.com/nyu-dl/dl4ir-searchQA

https://www.reddit.com/r/datasets/comments/1uyd0t/200000_jeopardy_questions_in_a_json_file/

反映通用问题,来源J!Archieve网站的问答,用google检索增强的文档。

在J1Archive中收集了电视节目Jeopardy的全部问答对儿14w+,然后从google检索问题,得到问题相关的网页,只保留答案长度不超过三个单词的元组,删除不包含答案的文档。




全部数据源:

注:以下结果大部分来自综述内容。


问题类型:布尔,多选,抽取,生成,对话推理,混合

答案类型/文段类型

数据构建方式:众包crw/专家experts/人工ug/自动ag/知识图谱kg

领域:百科、电影/剧本、网络文档、社区、书籍/故事

其他:各字段长度,内容分布


数据来源:

维基百科:

WikiQA(多选,ug/crw,有no answer; a -),

BoolQ (布尔,ug/crw; a - q 8),

SQuAD (抽取,crw; a 3.5) - SQuAD2.0,

WikiSuggest(生成,crw/ag),

TriviaQA (生成,trivia/crw;which;a 2.3,有较多非常规类问题),

TurkQA(混合,crw),

WikiReading (混合,ag-kg,查询类问题,问题较短,有no answer,有多主题; a 2.2;非单词非ascii比例较多50.1%),

QAngaroo WikiHop(混合,crw/kg,问题较短),

QuAC(混合,crw; a 14.1) ,

NaturalQuestions (混合,ug/crw,a 164.56,回答较长;who较多,有较多非常规类问题),

TyDi - R^3(混合,crw,where问题多,多语言?a 4.6;非单词非ascii比例较多31% who how多),

DROP(混合,crw; a 4 p 246.2 q 12.2; how much how many问题较多),

HotpotQA (混合,crw,跨文段推理; a 2.4 , q 20, p 1100.7;非单词非ascii比例较多45%,有较多非常规类问题),

网络文档:

MS MARCO ( 生成,ug/hg,有多文档, 有no answer;what; a 11.1,有较多非常规类问题)

新闻:

CNN/DailyMail(完型,ag),

WhoDidWhat(完型,ag),

NewsQA (抽取,crw,问题-文本来源不同;a 5 q 7.8 p 749.2),

CoQA (对话,crw,有no answer),

MultiRC(多选,crw),

ReCoRD(完型,ag; a 20.6),

QuAIL (多选,crw/experts;a 4.36)

书籍:

ChildrenBookTest(完型,ag),

BookTest(完型,ag),

LAMBADA(生成,crw/ag; a 1 布尔类?),

CoQA(对话,crw,有no answer; a 2.9 q 6.5),

Shmoop(完型,er/ag),

SciQ(多选,crw,科学)

电影/剧本:

MovieQA(多选,annotators),

WikiMovies(生成,crw/ag/kg;what;a 6.8),

DuoRC (混合,crw,电影描述来源于wiki和imdb, 有no answer,有非事实类;a 3.1,多who whose)

以上混合:

MultiRC

NarrativeQA (生成,hg,问题-文本来源不同;what;a 4.8;who较多 how)

医疗:

CliCR(完型,ag,人得分较低, a 3.4 q 22.6 p 1411.7),

MedQA(多选,expert; a 43.2 q 27.4 p 4.2, 有较多非常规类问题),

PubMedQuestions(布尔,crw , a - q 15.1 p 73.8),

emrQA(混合, expert/ag,a 2 q 7.9 p 1328.4),

QAngaroo MedHop(混合,crw/kg, a 1 q 3 p 9366.7)

法律:

ShARC(对话,crw,人得分较低;a 4 词汇量较少)

外语考试:

DREAM (多选,experts; a 5.3,词汇量较少较短),

RACE (多选,experts;a 6.3 which较多), RACE-C RACE-M RACE-H

律法考试:

ReClor (多选,experts; a 20.6 多which,有较多非常规类问题)

医学考试:

MedQA (多选,expert; a 43.2 q 27 p 4.2, 有较多非常规类问题)

博客(故事类):

MCScript - MCScript2.0 (多选,crw,when较多;a 3.4 多when),

CosmosQA(多选,crw,需要常识辅助推理、why较多; a 8.1 q 10.6 多when)

stack-overflow论坛:

Quasar(人得分较低) Quasar-T(混合,ag;a: 1.9) Quasar-S(完型,ag;a: 1.5)

quora:

QuAIL(多选,crw/experts; a 4.36)

tweet:

TweetQA(生成,crw;what;a 2.70)

亚马逊评论:

AmazonQA - AmazonYesNo(布尔,ug)(较多语法拼写错误)

烹饪网站:

RecipeQA(完型,ag)

有的使用同一主题的不同文本作为段落和生成问题,避免段落和问题间的重复。如newsqa使用摘要生成问题,原文是文段;还有narrativeqa;mcscript问题段落由不同人的相同脚本构建

J!Archive: SearchQA(混合,crw/ag,陈述句问题,有非事实多主题多文档,a:2 较多非常规问题49.6%)

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。