中文问答公开数据集整理
参考数据网站:
NLPCC: http://tcci.ccf.org.cn/conference/2022/taskdata.php
Ali Tianchi: https://tianchi.aliyun.com/dataset/recommend?spm=5176.12282016.J_3941670930.15.439452f8QdQ0jB
Baidu Qianyan: https://www.luge.ai/#/
CCL: http://cips-cl.org/static/CCL2022/cclEval/taskEvaluation/index.html
CCKS: https://sigkg.cn/ccks2022/?page_id=22
Baidu Aistudio: https://aistudio.baidu.com/aistudio/datasetoverview
Kaggle: https://www.kaggle.com/datasets
Google Dataset Search: https://datasetsearch.research.google.com/search?
Github: https://github.com/
Hugging Face: https://huggingface.co/
注:
主要元素为:数据集名称,链接,领域类型,语言,简介,主要文件,数据量,数据格式。
数据结构基本为 文档-问题-答案。
部分数据数量为个人统计,部分为数据源简介介绍;
CMRC2018:(中文)MRC数据集
数据源链接:https://ymcui.com/cmrc2018/
领域:百科
语言:中文
文件:squad-style-data/*.json
数据量:train qas count:10142;trail qas count: 1002;dev qas count: 3219
数据格式:json文件,train和trial一个问题一个答案,dev一个问题三个答案(重复);回答是短文本
简介:
维基百科提取的真实问题,类似中文版SQuAD。
train 10321, dev 3351, test 4895,challenge 504,训练集一个问题1个答案,其他3个答案,平均passage单词数450,问题单词数15,答案单词数10。
DuReader数据集
数据源链接:https://www.kaggle.com/datasets/konradb/chatbot-dataset-dureader
领域:百科
语言:中文
文件:/*.json
数据量:search train:136208;zhidao train:135366;search dev:5000;zhidao dev:5000;search test:60000;zhidao test:60000
数据格式:
json文件,一行一个问题,问题-参考答案文档们-候选答案-答案短语-答案实体/是否-答案分词index-段落分词-问题分词;test无答案
简介:
Dureader是一个大型的中文机器阅读理解(MRC)和问答(QA)数据集。(这个是预处理分词过的数据,里面有问题答案段落分词和对应index等);
包含答案token recall最高的段落记为most_related_para; 找到answer与document的F最大值的answer子串作为answer_spans(在对应段落对应句子的tokens的起止位置),其对应的answer为fake_answers;
要注意标点等,比如原文是,答案是, ,标点符号不对应,但是文本内容是对应的(噪音大,需要处理)。
http://ai.baidu.com/broad/introduction?dataset=dureader https://github.com/baidu/DuReader
DuReader Raw数据集
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/5038
领域:百科
语言:中文
文件:/*.json
数据量:search train:136208;zhidao train:135366;search dev:5000;zhidao dev:5000;search test:60000;zhidao test:60000
数据格式:
json文件,问题-参考答案文档们-生成的答案-答案实体/是否,生成的答案是参考答案段落里的句子,不过可能改了标点符号停用词等
简介:
未经过分词等预处理的DuReader数据;数据集中的所有问题都是从真正的匿名用户查询中取样的。而答案是从网络和百度知道的用户产生的。
Dureader 2.0版包含超过30万个问题、140万份证据文档和66万份人工生成的答案。一个问题会对应最多五个文档; 问题-最多五个相关问题的问答-答案(总结汇总)-问题类型-观点/事实-相关问答是否在注解最终答案时被引用(噪音大,需要处理)
百度WebQA
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/17514
领域:百科
语言:中文
文件:WebQA.json
数据量:questions count: 42223;qas count: 569260;valid_answer_qas_cnt: 213742;answers cnt: {0: 115, 1: 42064, 2: 44}
数据格式:
json文件,一个问题有多个回答,有的回答里没有答案,有的多个回答的答案是重复的;42064个问题有1个答案,115个问题没有答案,44个问题有两个答案;所有answer都在passage里可以找到
简介:
基于百度知道和其他资源,一个问题-多个passage&答案,没有答案则为空。为事实性问答。问题-答案都不长。(不过好像passage有省略号,不知道是源数据集就是非全文本还是找的数据集不对)(需要去除掉answer前面的“答:”)
https://spaces.ac.cn/archives/4338
SogouQA
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/17514
领域:百科
语言:中文
文件:SogouQA.json
数据量:questions count: 29812;qas count: 297336;valid_answer_qas_cnt: 115560;answers cnt: {0: 1, 1: 20058, 2: 7734, 3: 1687, 4: 299, 5: 30, 6: 3}
数据格式:
json文件,一个问题有多个回答,有的回答里没有答案,有的多个回答的答案是重复的;20058个问题有1个答案 … 所有answer都在passage里可以找到
简介:
2018年CIPS-SOGOU问答比赛数据;来自于搜狗搜索引擎真实用户提交的查询请求;含有事实类与非事实类数据;数据量:297.3K;问题类型:单片段抽取.(本数据只有事实类数据,非事实类数据是长文本)(不过好像passage有省略号,不知道是源数据集就是非全文本还是找的数据集不对)
http://task.www.sogou.com/cips-sogou_qa/
-------------------- others --------------------
医疗问答数据集
数据源链接:https://github.com/GongFuXiong/Chinese-Medical-Question-Answering-System
领域:医疗
语言:中文
文件:ChineseMed_QaData/questions.csv ChineseMed_QaData/answers.csv
数据量:问题文件60000;答案文件112987;
数据格式:
csv文件,答案文件。一个问题可能有多个回答,且是长回答。没有evidence。
简介:
从http://www.120ask.com上爬下来的60000个问题和112986个答案,每个问题有两个正确答案。
问题平均长度:50,答案平均长度:70。
UMETRIP-QA航旅纵横阅读理数据集
数据源链接:https://www.luge.ai/#/luge/dataDetail?id=62
领域:航空
语言:中文
文件:/train.txt /valid.txt /content.xlsx
数据量:3529; 504; 962
数据格式:
txt文件,一行一个问题,一个问题可能多个答案可能没有答案,有对应段落位置,需要自己提取。
xlsx文件,文章内容和id等。
简介:
本次阅读理解数据主要来源于航旅纵横内部问答社区的样本,原始数据包含问题以及可回答该问题的文本,其中的评测答案均为人工标注结果。此次数据中包含(问题,相关段落,段落中答案)训练数据信息。4033条数据,数据文件中将提供train.txt、valid.txt、content.xlsx文件
Native Chinese Reader (NCR) 中文中学阅读理解数据集
数据源链接:https://www.luge.ai/#/luge/dataDetail?id=57
领域:语文
语言:中文
简介:中学语文阅读理解题目,现代文/古文。
CCKS2022:带条件的分层级多答案问答
数据源链接:https://www.biendata.xyz/competition/CMQA/data/
领域:医疗
语言:中文
文件:/*.json
数据量:train:5000;dev:1000;test:1000
简介:
每行为一个json格式数据, 其中context为文本,question为问题。condition、coarse、fine分别为三种文本片段的起始/结束位置。condition_coarse、condition_fine、coarse_fine为条件-答案的对应关系和不同粒度答案的对应关系。(粗粒度为一类东西、细粒度答案为具体的东西、粗粒度答案和条件间可有对应关系)
百科类问答json版
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/107726
领域:百科
语言:中文
文件:/*.json
数据量:train: 1425170;valid: 44972
数据格式:
json文件,一行为一个问题-回答对儿,train valid均有回答;无evidence
简介:
本数据集含有150万个预先过滤过的、高质量的百科类问题和答案。数据集总共有492个类别,其中频率达到或超过10次的类别有434个。问题-类型-答案
中文医学问答
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/84360
领域:医疗
语言:中文
文件:/*.json
数据量:train: 181012;valid: 45254
数据格式:
txt文件,\t分隔符,一个问题可能有多个回答;无evidence
简介:问题-回答(长文本)
法律知识问答
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/89457
领域:法律
语言:中文
文件:/*.json
数据量:train:16209;test:6947
数据格式:
多个json文件,一个json文件为一个问答;无evidence
简介:
法律问题回答,有问题-起因类型-回答-候选答案,评测结果是从备选答案里选出最合适的答案?
抑郁症问答数据集
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/110087
领域:抑郁症
语言:中文
数据量:36759
数据格式:
一行问题一行回答;无evidence
简介:问题-回答(长文本)
心理咨询问答语料库
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/31443
领域:心理咨询
语言:中文
文件:efaqa-corpus-zh.utf8
数据量:20000
数据格式:
json文件,一行一个聊天;多轮对话
简介:多轮对话
中医文献问题生成
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/52564
领域:中医
语言:中文
文件:/*.json
数据量:train qas: 18478;test qas:4373
数据格式:
json文件,test文件没有question;回答是长文本
简介:
一个文段,多个问题-答案对儿,答案来源于文段原文
DRCD 台達閱讀理解資料集
数据源链接:https://github.com/DRCKnowledgeTeam/DRCD
领域:百科
语言:中文(繁体)
文件:/*.json
数据量:train qas: 26936;dev qas:3493;test qas:3524
数据格式:
json文件,跟squad格式一样,一个问题一个答案,dev test里面有两个答案不过是重复的
简介:
本資料集從2,108篇維基條目中整理出10,014篇段落,並從段落中標註出30,000多個問題;跟squad格式一样
“讯飞杯”中文机器阅读理解评测 CMRC2017
数据源链接:https://hfl-rc.github.io/cmrc2017/
领域:故事
语言:中文
文件:/*.json
数据量:train:30000完形;valid:2000完形 2000问答;test:3000完形 3000问答
数据格式:
txt文件,需要两两对应完形/问题答案
填空型阅读理解问题 & 用户提问,基于篇章(有点像寓言故事)
小学科学问答数据集
数据源链接:https://aistudio.baidu.com/aistudio/datasetdetail/105820
领域:科学
语言:英文
数据格式:
json文件,问题-选项-答案
简介:
- 点赞
- 收藏
- 关注作者
评论(0)