OPENKG 中文知识图谱公开数据集整理

举报
yd_276523017 发表于 2023/06/12 15:10:51 2023/06/12
【摘要】 OPENKG 中文知识图谱公开数据集整理

OPENKG 中文知识图谱公开数据集整理

一、《知识图谱》书籍资源汇总

数据源链接http://openkg.cn/dataset/kg-book

数据格式 pdf



二、200万条商品画像数据

数据源链接http://openkg.cn/dataset/200

文件:item_profile.txt

领域:商品

简介 商品标题(长)、url、价格、描述、品牌和类目(多类目用$连接,单类目里也有可能有/分隔,比如“手机/手机配件​$手机通讯​$手机”);可构建 商品-品牌-类目 三元组?

数据量:2000000

数据格式 txt, \t分隔符,可直接用

数据样例 迪秀旅行可折叠行李包 http://t.58.com/su/125377232773858010/ 18.0 家居家纺$居家日用 【老货专卖】酱釉执壶 http://www.cang.com/trade/show-13702704-2.html 150.0 日用百货​$餐具水具$水具/水壶 爱因诗10本装不重复婴儿幼儿撕不烂早教卡书01 http://www.beibei.com/detail/600005254-1229564.html 26.0 母婴用品\​玩具早教婴幼玩具 ...



三、2020年中国排名前一百大学知识图谱

数据源链接http://openkg.cn/dataset/2020

文件:data2020\spider\all.json或all.csv

领域:学校

简介 2022年中国排名前一百大学的中英文名称、简称、创建时间、大学类型和所属部门;数据来源基于百度百科的大学相关词条;可构建 学校-类型-创建时间-三元组?

数据量:100

数据样例 中文名,英文名,简称,创办时间,类型,主管部门 北京大学,Peking University,北大,1898年,综合,中华人民共和国教育部 清华大学,Tsinghua University,清华,1911年,综合,中华人民共和国教育部 ...



四、BTC2019数据集

数据源链接http://openkg.cn/dataset?q=BTC2019%E6%95%B0%E6%8D%AE%E9%9B%86

文件https://zenodo.org/record/2634588#.Y7wK7nZBwuU

数据量:数据缺失

数据格式 rdf./ttl/nq格式,三元组结构不清晰



五、ConceptNet5的中文部分-截至2017年1月

数据源链接http://openkg.cn/dataset/conceptnet5-chinese

文件:chineseconceptnet.csv

领域:常识

简介 数据为繁体字,xxx 会想让你 xxx,xxx 能做的事情有 xxx,你可以在 xxx 找到 xxx 等

数据量:624805

数据格式 csv格式,\t分隔符,三元组需要提取过滤,有/c/zh前缀等;有部分数据列粘合在了一起;有activity字段的才有三元组关系(需进一步细致分析)

数据样例 /a/[/r/CapableOf/,/c/zh/逃避壓力/,/c/zh/睡覺/] /r/CapableOf /c/zh/逃避壓力 /c/zh/睡覺 {"dataset": "/d/conceptnet/4/zh", "license": "cc:by/4.0", "sources": [{"activity": "/s/activity/ptt/petgame", "contributor": "/s/contributor/petgame/pet_15677"}], "surfaceEnd": "睡覺", "surfaceStart": "逃避壓力", "surfaceText": "[[逃避壓力]] 能做的事情有 [[睡覺]]。", "weight": 1.0} /a/[/r/AtLocation/,/c/zh/雞毛/,/c/zh/雞舍/] /r/AtLocation /c/zh/雞毛 /c/zh/雞舍 {"dataset": "/d/conceptnet/4/zh", "license": "cc:by/4.0", "sources": [{"activity": "/s/act ...



六、DiseaseKG基于cnSchma常见疾病信息知识图谱

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/disease-information

文件:entities.json

简介 实体类别和名字,如label为Check,name为食道X线钡餐检查,一个类别有多个实体,Disease类别的name除了名字外还有预防成因等。

数据量:44656

数据格式 json格式,整体为json数组

数据样例 [ { "label": "Disease", "name": { "name": "肺泡蛋白质沉积症", "desc": "肺泡蛋白质沉积症(简称PAP),又称Rosen-Castle-man-Liebow综合征,是一种罕见疾病。该病以肺泡和细支气管腔内充满PAS染色阳性,来自肺的富磷脂蛋白质物质为其特征,好发于青中年,男性发病约3倍于女性。", "prevent": "1、避免感染分支杆菌病,卡氏肺囊肿肺炎,巨细胞病毒等。\n2、注意锻炼身体,提高免疫力。", "cause": "病因未明,推测与几方面因素有关:如大量粉尘吸入(铝,二氧化硅等),机体免疫功能下降(尤其婴幼儿),遗传因素,酗酒,微生物感染等,而对于感染,有时很难确认是原发致病因素还是继发于肺泡蛋白沉着症,例如巨细胞病毒,卡氏肺孢子虫,组织胞浆菌感染等均发现有肺泡内高蛋白沉着。\n虽然启动因素尚不明确,但基本上同意发病过程为脂质代谢障碍所致,即由于机体内,外因素作用引起肺泡表面活性物质 ...


[Dataset Part 2] 文件:medical.json

简介 病症名字、描述、预防、成因、症状、患病概率、治疗时间、治愈率、治疗花费、检查方式、推荐食物、推荐药物、推荐药物详情等

数据量:8808

数据格式 json格式,一行一个病症

数据样例 { "_id": { "$oid": "5bb578b6831b973a137e3ee6" }, "name": "肺泡蛋白质沉积症", "desc": "肺泡蛋白质沉积症(简称PAP),又称Rosen-Castle-man-Liebow综合征,是一种罕见疾病。该病以肺泡和细支气管腔内充满PAS染色阳性,来自肺的富磷脂蛋白质物质为其特征,好发于青中年,男性发病约3倍于女性。", "category": [ "疾病百科", "内科", "呼吸内科" ], "prevent": "1、避免感染分支杆菌病,卡氏肺囊肿肺炎,巨细胞病毒等。\n2、注意锻炼身体,提高免疫力。", "cause": "病因未明,推测与几方面因素有关:如大量粉尘吸入(铝,二氧化硅等),机体免疫功能下降(尤其婴幼儿),遗传因素,酗酒,微生物感染等,而对于感染,有时很难确认是原发致病因素还是继发于肺泡 ...


[Dataset Part 3] 文件:relations.json

简介 实体关系,共12个,(疾病)推荐食谱、(疾病)宜吃、(疾病)忌吃、(科室)属于(科室)、(疾病)所属科室、(疾病)常用药品、(药品在售)生产药品、(疾病)好评药品、(疾病)诊断检查、(疾病)症状、(疾病)并发症、(疾病)治疗方法

数据量:312159

数据格式 json格式,整体为json数组

数据样例 [ { "start_entity_type": "Disease", "end_entity_type": "Food", "rel_type": "recommand_eat", "rel_name": "推荐食谱", "rels": [ { "start_entity_name": "藏毛囊肿", "end_entity_name": "白菜肉末粥" }, { "start_entity_name": "甲沟炎", "end_entity_name": "蛋花空心菜汤" }, ] }, { "start_entity_type": "Disease", "end_entity_type": "Food", ...



七、OpenCYC中文机器翻译版

数据源链接http://openkg.cn/dataset/openstreetmap-wikidata

文件:opencyc-Chinese-2012-06-19.owl

简介 中英翻译对照,数据经由google翻译api获得

数据量:161276个节点/关系?

数据格式 .owl格式,需二次提取和理解owl文件格式

数据样例 <owl:Class rdf:about="Mx4rvVj1_ZwpEbGdrcN5Y29ycA"> <rdfs:label xml:lang="zh-CN">光开关/rdfs:label <Mx4rwLSVCpwpEbGdrcN5Y29ycA xml:lang="zh-CN">电灯开关</Mx4rwLSVCpwpEbGdrcN5Y29ycA> <cycAnnot:label xml:lang="zh-CN">LightSwitchOnWall/cycAnnot:label <rdfs:comment xml:lang="zh-CN">具体地说,电灯开关上找到一个房间的墙上。不是一个自己的灯和灯具。/rdfs:comment <rdf:type rdf:resource="Mx4rejmDbrF_QdeIENT1qpbYzQ"/> <rdf:type rdf:resource="Mx4rvWXYgJwpEbGdrcN5Y29ycA"/> <rdf:type rdf ...



八、OpenStreetMap和Wikidata的实体链接数据集(中国区域)

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/openstreetmap-wikidata

文件:rdfosmchinaall.json

领域:地理位置

简介 地点中英文名和经纬度对照(不全有英文名),一个地名可能对应多个经纬度point,一个point只对应一个名字,信息来自OpenStreetMap

数据量:1716个中文地名,331192个经纬度位置

数据格式 json格式,需二次提取对应关系,有等效的节点,需进一步理解数据

数据样例 "@graph" : [ { "@id" : ":b0", "label" : [ { "@language" : "en", "@value" : "Dingbian" }, { "@language" : "zh", "@value" : "定边镇" } ] }, { "@id" : "http://openstreetmap.org/node/2526172595", "rdf:type" : "GeoEntity", "subClassOf" : "OSMEntity", "CLASS" : "OSMNode", "GEO" : "POINT (115.092216 29.2424748)", "NAME" : { "@id" : ":b0" }, "UID" : "osm/2526172595", "sameAs" : "http://www.wikidata.org/wiki/Q13793467" ...


[Dataset Part 2] 文件:rdfwikichinaall.json

简介 地点中英文名和经纬度对照(不全有英文名),一个地名可能对应多个经纬度point,一个point只对应一个名字,信息来自wiki

数据量:1707个中文地名,330946个经纬度位置

数据格式 json格式,需二次提取对应关系

数据样例 {"@graph" : [ { "@id" : ":b0", "label" : [ { "@language" : "en", "@value" : "W Hong Kong" }, { "@language" : "zh", "@value" : "香港W酒店" } ] }, { "@id" : ":b5789", "label" : [ { "@language" : "en", "@value" : "Lugu" }, { "@language" : "zh", "@value" : "鹿谷鄉" } ] }, { "@id" : "http://www.wikidata.org/wiki/Q712911", "rdf:type" : "WikidataEntity", "GEO" : [ "POINT (120.7534981 23.7460495)", "POINT (120.75 ...



九、TechKG_Applications

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/techkg-application

文件:biterm/biterm/*.txt

领域:38个领域 | 术语翻译

简介 材料科学、出版、农业、艺术等领域术语中英翻译对照(共现次数最多的1w个术语)

数据量:380000

数据格式 txt格式,\t分隔符,可直接使用

数据样例 文化 culture 山西高等学校社会科学学报 Social Sciences Journal of Colleges of Shanxi 和谐社会 harmonious society 中国 China 创新 innovation 长春大学学报 Journal of Changchun University 统计研究 Statistical Research 教育 education 湖南师范大学社会科学学报 Journal of Social Science of Hunan Normal University 大学生 college students 襄樊学院学报 Journal of Xiangfan University ...


[Dataset Part 2] 文件:techabs/abstract/*.txt

简介 材料科学、出版、农业、艺术等领域论文摘要(每个领域随机10w个摘要)

数据量:3551049行

数据格式 txt格式,可直接使用

数据样例 本文概述了YMF— 6耐酸型FRP(纤维—树脂复合材料 )基体材料的配方设计与测试数据。同时 ,介绍了YMF— 6耐酸型FRP基体材料在大型酸槽修复中的应用情况 ,为YMF— 6耐酸型FRP基体材料的应用 ,提供了使用依据 分析了磷酸镁水泥的原料制备、水化机理及主要水化产物,介绍了磷酸镁水泥凝结影响因素、强度影响因素研究现状,在此基础上对磷酸镁水泥的应用前景及亟需解决的问题进行了初步探讨。 简要介绍了自分层涂料及其研究和发展;总结了在自分层涂料的研究中,筛选树脂和预测涂料自分层倾向所遵循的理论模型;分析了助剂和填料对涂料分层的影响;介绍了自分层涂料涂层(膜)的检测方法。 ...


[Dataset Part 3] 文件:techner/NER_subset/*.txt

简介 材料科学、出版、农业、艺术等领域基于techterm术语采用远程监督方式生成的领域术语识别(每个领域3w个训练句子),结构为 句子 -> 术语数组

数据量:1140000

数据格式 txt格式,\t分隔符,可直接使用

数据样例 复合材料MSCs/-βTCP与自体骨的骨再生能力相当。 ['复合材料'] 加涂层的试样在1250℃氧化遵循分段抛物线规律。 ['涂层', '氧化'] 运用表面热力学基本原理研究了活性金属/陶瓷体系的粘着功。 ['热力学', '陶瓷体', '金属'] 通过电导率(σ)测试。 ['电导率'] 不同温度下复合材料的MSP强度显示出不同的组织依存性。 ['复合材料'] ...


[Dataset Part 4] 文件:techqa/encoded_QA/*.txt

简介 各领域三元组关系(基于techKG10)基于模板转化为的qa句。(techKG10是从TechKG中抽取的子集,规则为;领域术语的tf*idf在前10%;每个实体至少出现在10个三元组中)

数据格式 不可用,三元组关系只有节点id没有内容;暂未找到节点id和节点内容的对应文件

数据样例 11192350在什么时候发表了论文《43607926》? 12734281。 43607926 12734281 published_year 11192350的研究兴趣是什么? 25575032,01779750,25911907,42464314,31174103,22630855,42613488,29048116,12580553,01171186,08103493,16122327,13633522,10339260,14505887,36847773,25061852,33481245,06639445。 11192350 25575032 research_interest ...


[Dataset Part 5] 文件:techre/sub_RE/*.txt

简介 材料科学、出版、农业、艺术等领域基于techKG10、采用远程监督方式生成的领域关系抽取(每个领域20w个训练bags,每个bag6个句子)

数据量:18663452行

数据格式 txt格式,\t分隔符,可直接使用

数据样例 复合材料构件 碳纤维复合材料 NA 特别是碳纤维复合材料构件。 非晶相 莫来石 NA 在硅酸盐溶液中获得的陶瓷膜由莫来石、α-Al2O3、γ-Al2O3晶态相和SiO2非晶相组成。 水煤浆 锅炉 hierarchical 结合带侧边风的油 /水煤浆两用燃烧器在这种型式锅炉上的实际应用情况 。 文化 自主创新 NA 为自主创新提供必需的文化支撑。 ...


[Dataset Part 6] 文件:techterm/术语/*.txt

简介 材料科学、出版、农业、艺术等领域的术语(每个领域术语来自techKG中tf*idf最高的术语中随机1w条)

数据量:380000

数据格式 txt格式,可直接使用

数据样例 inorganic non-metallic materials 复合材料 metallic materials foundational discipline in materials science 修志工作 中国地方志 地方志事业 ...



十、THUOCL:清华大学开放中文词库_files

数据源链接http://openkg.cn/dataset/thuocl http://thuocl.thunlp.org/

文件:data/*.txt

领域:11个领域 | 词语

简介 IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物领域词语和DF值,词频统计语料来自CSDN博客、新浪新闻、搜狗语料。(源数据缺失,补充下载)

数据量:157173

数据格式 txt格式,\t分隔符,可直接使用

数据样例 信鸽 220963 黄蜂 118861 水母 78147 随时随地 52510 全力以赴 36156 丰富多彩 34727 余波未平 32967 民以食为天 3900 任重而道远 3742 一言以蔽之 2183 ...



十一、Yidu-N7K医渡云标准化7K数据集

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/yidu-n7k

文件:yidu-n7k/code.txt

领域:临床医疗 | 术语

简介 临床医疗手术的术语,有两列分别为 编号 术语

数据量:9867行,9468个非重复术语(有的术语有两个标号)

数据格式 txt格式,\t分隔符,可直接使用

数据样例 00 操作和介入NEC 00.0 治疗性超声 00.0100 头和颈部血管治疗性超声 00.0101 头部血管治疗性超声 00.0102 颈部血管治疗性超声 00.0200 心脏治疗性超声 90.8 上消化道标本和呕吐物的显微镜检查 90.8x00 上消化道标本和呕吐物的显微镜检查 90.9 下消化道标本和大便的显微镜检查 90.9x00 下消化道标本和大便的显微镜检查 ...


[Dataset Part 2] 文件:yidu-n7k/*.xlsx

简介 临床医疗术语标准化前后对照,有训练集、测试集、验证集;有两列分别为 原始词 标准词

数据量:answer.xlsx: 2000;1901个术语在术语词典里train.xlsx: 4000;3801个术语在术语词典里val.xlsx: 1000;950个术语在术语词典里

数据格式 xlsx格式,可直接使用

数据样例 原始词 标准词 横结肠造口还纳术 横结肠造口闭合术 右肾上腺巨大肿瘤切除术 肾上腺病损切除术 左侧单侧乳房根治性切除术 单侧根治性乳房切除术 经皮三叉神经半月节射频热凝术 三叉神经半月节射频热凝术 经内镜支撑喉镜下双侧声带小结摘除术 内镜下声带病损切除术 肋骨病损切除术 肋骨病损切除术 腰椎间盘髓核切除术 腰椎髓核切除术 双侧腔镜下交感神经切断术(胸腔镜下) 胸腔镜下交感神经切断术 ...



十二、Yidu-S4K医渡云结构化4K数据集

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/yidu-s4k

文件:yidu-s4k/subtask1* yidu-s4k/subtask1*

领域:临床医疗 | 实体识别

简介 临床医疗术语命名实体识别,有训练集、测试集;有实体识别的原文和start end pos

数据量:train 1001, test 379

数据格式 txt/json格式,可直接使用

数据样例 { "originalText": ",患者2008年9月3日因“腹胀,发现腹部包块”在我院腹科行手术探查,术中见盆腹腔肿物,与肠管及子宫关系密切,遂行“全子宫左附件切除+盆腔肿物切除+右半结肠切除+DIXON术”,术后病理示颗粒细胞瘤,诊断为颗粒细胞瘤IIIC期,术后自2008年11月起行BEP方案化疗共4程,末次化疗时间为2009年3月26日。之后患者定期复查,2015-6-1,复查CT示:髂嵴水平上腹部L5腰椎前见软组织肿块,大小约30MM×45MM,密度欠均匀,边界尚清楚,轻度强化。查肿瘤标志物均正常。于2015-7-6行剖腹探查+膀胱旁肿物切除+骶前肿物切除+肠表面肿物切除术,术程顺利,,术后病理示:膀胱旁肿物及骶前肿物符合颗粒细胞瘤。于2015-7-13、8-14给予泰素240MG+伯尔定600MG化疗2程,过程顺利。出院至今,无发热,无腹痛、腹胀,有脱发,现返院复诊,拟行再次化疗收入院。起病以来,精神、胃纳、睡眠可,大小便正常,体重无明显改变。", "entities": [ { "end_pos": 15, ...


[Dataset Part 2] 文件:yidu-s4k/subtask2_*

简介 临床医疗病症(器官)转移和病灶大小识别,有已标注训练集、测试集和无标注原文本;train结构为 原文 肿瘤原发部位 原发病灶大小 转移部位

数据量:train 999(去重后), test 400, unlabled 1000

数据格式 xlsx/txt格式,可直接使用

数据样例 原文 肿瘤原发部位 原发病灶大小 转移部位 "1.结合临床,右乳癌,较前(2015-06-23)片基本变化不著;双肺转移,较前部分缩小,部分变化不著,部分略增大;肝转移,较前好转;双侧腋窝、纵隔多发小淋巴结,变化不著;右侧内乳区饱满,变化不著;脑多发转移2.左肺胸膜局限性增厚,局部钙化,变化不著。右侧乳腺乳头上方见不规则软组织密度肿块影,约4.6CM×3.2CM,边缘浅分叶,局部与周围腺体及乳头区皮肤分界不清,胸肌间脂肪间隙模糊,增强扫描见显著不均匀强化,其内见片状低密度影。左乳未见异常密度灶。双侧腋窝见多发小淋巴结,大者短径约0.6CM。右侧内乳区显示饱满。纵隔内左侧下肺静脉旁及下段食管旁见小淋巴结影。双肺野散在分布大小不等结节灶,大者直径约1.7CM,边缘清晰,局部与胸膜及纵隔关系密切,增强扫描可见强化。左肺胸膜增厚,局部呈结节样;局部见多发钙化灶并致局部肋骨欠规则。扫描野肝实质内见多个低密度灶,大者直径约0.8CM,边缘尚清晰,增强扫描边缘强化显著。 脑实质内示多发结节灶,大者直径约0.7CM,增强扫描可见环形强化。脑室池无扩张。脑沟回无增宽。中线结构居中。 " 右乳 4.6C ...



十三、北京大学中文百科知识图谱-PKU-PIE 知识库

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/pku-pie

文件:firstreleaseowl.owl

领域:百科

简介 PKU-PIE 知识库的类别\谓词的定义信息;对应原url的数据集 PKU-PIE ontologyOWL

数据量:753个owl节点

数据格式 owl文件,需二次处理

数据样例 <owl:Class rdf:about="http://pkupiekb.org/ontology/区域首都"> <owl:equivalentClass rdf:resource="http://dbpedia.org/ontology/CapitalOfRegion"/> <rdfs:label xml:lang="en">Capital of region/rdfs:label <rdfs:label xml:lang="fr">Capitale régionale/rdfs:label <rdfs:label xml:lang="de">Hauptstadt der Region/rdfs:label <rdfs:label xml:lang="zh">区域首都/rdfs:label <rdfs:subClassOf rdf:resource="http://pkupiekb.org/ontology/城市"/> <rdfs:comment xml:lang="en">seat of a first order administration di ...


[Dataset Part 2] 文件:firstreleasetriple.ttl.bz2\firstreleasetriple.ttl

简介 维基百科实体的类别三元组;对应原url的数据集 instance type triple

数据量:921968行

数据格式 ttl文件,需二次处理

数据样例

<http://pkupiekb.org/resource/鈴木仁> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://pkupiekb.org/ontology/模特> .
<http://pkupiekb.org/resource/双流中学> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://pkupiekb.org/ontology/学校> .
<http://pkupiekb.org/resource/心理学> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://pkupiekb.org/ontology/历史> .
<http://pkupiekb.org/resource/心理学> <http://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://pkupiekb.org/ontology/社会学科> .
<http://pkup ...


[Dataset Part 3] 文件:traveltriple.ttl.bz2\traveltriple.ttl

简介 PKU-PIE知识库中与旅游相关的三元组数据集;对应原url的数据集 travelTriple

数据量:161184行

数据格式 ttl文件,需二次处理

数据样例

<http://pkupiekb.org/resource/关渡自然保留区> <http://pkupiekb.org/ontology/地理位置> <http://pkupiekb.org/resource/台湾> .
<http://pkupiekb.org/resource/三条桥> <http://pkupiekb.org/ontology/中文名称> "三条桥"@en .
<http://pkupiekb.org/resource/宝掌幽谷> <http://pkupiekb.org/ontology/最有名> "宝掌冷泉"@en .
<http://pkupiekb.org/resource/长胜遗址> <http://pkupiekb.org/ontology/中文名称> "长胜遗址"@en .
<http://pkupiekb.org/resource/北坞清真寺> <http://pkupiekb.org/ontology/中文名称> "北坞清真寺"@en . ...


[Dataset Part 4] 文件:allfieldtriple.ttl.bz2

简介 本知识库内全领域实体的优质三元组数据集;对应原url的数据集 AllFieldTriples

数据量:数据缺失,据介绍有5000w+

数据格式 ttl文件,需二次处理



十四、病人事件图谱数据集

数据源链接http://openkg.cn/dataset/peg

文件:peg/peg.ttl

领域:医疗 | 病人事件

简介 使用三家上海三甲医院的电子病历数据,构建了包括3个专科、173395个医疗事件、501335个事件时序关系以及与5313个知识库概念链接的医疗数据集。

数据量:1840752行; 176981个resource

数据格式 ttl文件,需二次处理

数据样例

<http://peg.ecustnlplab.com/resource/1> <http://peg.ecustnlplab.com/ontology#person_id> "1"^^xsd:int .
<http://peg.ecustnlplab.com/resource/1> <http://peg.ecustnlplab.com/ontology#gender>    "男" .
<http://peg.ecustnlplab.com/resource/1> <http://peg.ecustnlplab.com/ontology#birth_date>    "1954-01-25"^^xsd:date .
<http://peg.ecustnlplab.com/resource/1> <http://semanticweb.cs.vu.nl/2009/11/sem/actorType> <http://peg.ecustnlplab.com/ontology#PERSON> .
<http://peg.ecustnlplab.com/resource/666>   <http://pe ...



十五、菜谱知识图谱

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/recipegraph

文件:data/graph.json

领域:菜谱

简介 node实体,包含菜谱名称、类型、耗时、口味、工艺、做法;node信息包括material原料和recipe食谱两类,link关系包括食谱和原料之间的主食材/辅料及用量的关系

数据量:82个食谱/原料;100个link

数据格式 json文件,可直接使用

数据样例 { "nodes": [ { "耗时": "十分钟", "做法": "1:准备的食材。2:香肉肠切片。3:爆香蒜末、豆豉。4:倒入香肉肠,中火翻炒。5:炒两分钟后倒入菜干翻炒。6:加入酱油、蚝油调味,再加入葱段。7:炒均匀即可出锅。8:成品。", "name": "香肠炒菜干", "口味": "酱香", "工艺": "炒", "类型": "热菜", "ID": 0, "label": [ "recipe" ] }, { "name": "食用油", "食材简介": "食用油也称为“食油”,是指在制作食品过程中使用的,动物或者植物油脂。常温下为液态。 由于原料来源、加工工艺以及品质等原因,常见的食用油多为植物油脂,包括粟米油、花生油、火麻油、 ...


[Dataset Part 2] 文件:data/ingre_func.json

简介 食物的营养价值和食用功效

数据量:1234

数据格式 json文件,unicode编码

数据样例 { "艾草": { "营养价值": "1.现代药理发现,艾叶挥发油含量多,1.8-桉叶素(占50%以上),其它有α-侧柏酮、倍半萜烯醇及其酯。风干叶含矿物质10.13%,脂肪2.59%,蛋白质25.85%,以及维生素A、B1、B2、C等。\n2.茎、叶都含有挥发性芳香油。它所产生的奇特芳香,可驱蚊蝇、虫蚁,净化空气。", "食用功效": "1、理气血,逐寒湿;温经,止血,安胎。治心腹冷痛,泄泻转筋,久痢,吐衄,下血,月经不调,崩漏,带下,胎动不安,痈疡,疥癣。\n2、抗真菌作用、平喘作用、利胆作用、抑制血小板聚集作用、止血作用、对胃肠道及子宫的作用、对心血管系统作用、抗过敏作用等。" }, "鹌鹑": { "营养价值": "鹌鹑为雉科动物。俗话说:“要吃飞禽,鸽子鹌鹑。”鹌鹑肉、蛋,味道鲜美,营养丰富。 鹌鹑又简称鹑,是一种头小、尾巴短、不善飞的赤褐色小鸟,鹌鹑肉是典型的高蛋白、低脂肪、低胆固醇食物,特别适合中老年人以及高血压、肥胖症患者食用。鹌鹑可与补药之王人参相媲美,誉为"动物人参"。\n鹌鹑肉质鲜美,含脂 ...


[Dataset Part 3] 文件:data/recipe.json

简介 菜谱的菜名、主食材/辅料和用量、耗时、口味、工艺、做法、类型。

数据量:19669

数据格式 json文件,unicode编码

数据样例 { "香肠炒菜干": { "主食材": [ [ "香肠", "2根" ], [ "菜干", "200g" ] ], "辅料": [ [ "豆豉", "2匙" ], [ "蒜", "少许" ], [ "葱", "1颗" ], [ "酱油", "2匙" ], ...



十六、创新投资领域知识图谱

数据源链接http://openkg.cn/dataset/invest-on-invent

文件:invest-on-invent-kg.json

领域:投资

简介 企业投资公司/专利,投资方、被投资公司、被投资公司融资阶段、被投资专利

数据量:394204个节点;investor 5322;company 11960;patent 376922

数据格式 json文件,可直接使用

数据样例 { "@graph": [ { "@id": "0", "@type": "investor", "name": "瑞华林投资", "relationship": { "investCompany": [ { "@id": "5617", "@type": "company", "round": "新三板定增", "date": "2016-03-04" } ] } }, { "@id": "11219", "@type": "comp ...



十七、春秋战国知识图谱(人工构建)

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/dongzhou

文件:cqzg-kg\东周列国知识图谱\人物关系.xlsx

领域:历史

简介 春秋战国时期人物之间关系三元组,人物1 人物2 关系

数据量:613

数据格式 xlsx文件,可直接使用

数据样例 人物1 人物2 关系 齐桓公 齐襄公 兄弟 齐襄公 文姜 兄妹|情人 文姜 宣姜 姐妹 文姜 鲁恒公 夫妻 ...


[Dataset Part 2] 文件:cqzg-kg\东周列国知识图谱\人物信息.xlsx

简介 春秋战国时期人物的 姓 氏 名 生活时间 工作时间 国籍 工作单位 是否国君 谥号等

数据量:436

数据格式 xlsx文件,可直接使用

数据样例 生活时间 工作时间 国籍 工作单位 是否国君 谥号 备注 小白 -643 685 643 齐国 齐国 齐桓公 -685 - - 齐国 齐国 公子纠 无亏 -642 - - 齐国 齐国 公子无亏 猪儿 -686 698 686 齐国 齐国 齐襄公 禄甫 -698 731 698 齐国 齐国 齐僖公 -633 642 633 齐国 齐国 齐孝公 -613 632 613 齐国 齐国 齐昭公 公子潘 商人 - - 613 609 齐国 齐国 齐懿公 公子商人 - - 608 599 齐国 齐国 齐惠公 公子元 ...


[Dataset Part 3] 文件:cqzg-kg\东周列国知识图谱\事件信息.xlsx

简介 春秋战国时期的 战争事件 会盟事件 序列事件(主事件&子事件) 通用事件 死亡事件 成语事件 同义词等

数据格式 xlsx文件,可直接使用,每种事件分别放在不同的xlsx表

数据样例 【战争事件】 事件编码 战争名称 时间起 时间止 地点 主攻方 主守方 主攻-帮手 主守-帮手 主攻方-兵力 主守方-兵力 主攻方-伤亡 主守方-伤亡 起因 结果 嵌套事件 内容 W1 长勺之战 684 长勺(今山东莱芜) 齐国-齐桓公 鲁国-鲁庄公 报干时之战的仇 鲁国胜 E7 W2 干时之战 685 干时 鲁国-鲁庄公 齐国-齐桓公 齐桓公成功继位,为公子纠再争取一次! 齐国胜

【会盟事件】
事件编码    名称  时间  地点  主持方 参加方 原因(借口)  意义  嵌套事件
M1  葵丘会盟    651 葵丘  齐国-齐桓公  齐、鲁、宋、卫、郑、许、曹   为了帮助太子郑,周惠王想废掉太子郑,立自己爱妃生的儿子王子带为太子。  正式成为春秋第一个霸主 
M2  北杏会盟    681 北杏  齐国-齐桓公  齐、宋、陈、蔡、邾   为了平息宋国内乱    第一次以诸侯身份主持多国会盟  
​
【序列事件】
主事件编码   主事件名称   子事件编号
S1  齐灭遂 E2
S1  齐灭遂 E3
S1  齐灭遂 E4
​
【通用事件】
事件编号    事件名称    时间起 时间止 地点  人物-主动   人物-被动   人物-主动-参 ...



十八、大词林开源75万核心实体和围绕核心实体的细粒度概念关系列表

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/hit

文件:openentity\OpenEntity\entity.txt

领域:全领域?百科?

简介 实体

数据量:762942

数据格式 txt文件,可直接使用

数据样例 学长 刘勇 商周 上海人民企业集团黑龙江机电销售有限公司 中华人民共和国驻德意志联邦共和国大使馆 中共开封市郊区委员会组织部党员教育中心 ...


[Dataset Part 2] 文件:openentity\OpenEntity\concept.txt

简介 概念

数据量:18726

数据格式 txt文件,可直接使用

数据样例 同学 专家 光阴 路线图 布告 ...


[Dataset Part 3] 文件:openentity\OpenEntity\hyper.txt

简介 实体-概念

数据量:3180379

数据格式 txt文件,;分隔符,可直接使用

数据样例 学长;同学 学长;人 刘勇;专家 中共开封市郊区委员会组织部党员教育中心;中心 中共开封市郊区委员会组织部党员教育中心;空间 ...


[Dataset Part 4] 文件:openentity\OpenEntity\triple.txt

简介 实体三元组,(关系跟上面的概念不一样)

数据量:2983078

数据格式 txt文件,;分隔符,可直接使用

数据样例 学长;外文名;Senior Students/ Senior 学长;拼音;xué zhǎng 学长;中文名;学长 中华人民共和国驻德意志联邦共和国大使馆;职能;使馆 中华人民共和国驻德意志联邦共和国大使馆;地点;德国 中华人民共和国驻德意志联邦共和国大使馆;中文名;中华人民共和国驻德意志联邦共和国大使馆 中华人民共和国驻德意志联邦共和国大使馆;性质;公办 ...


[Dataset Part 5] 文件:openentity\OpenEntity\bigcilin_schema.json bigcilin_open_schema.xlsx

简介 schame文件

数据量:188853

数据格式 json/xlsx文件,可直接使用

数据样例 { "@graph": [ { "@id": "http://www.openkg.cn/BigCilin/class/C0", "@type": "http://www.w3.org/2000/01/rdf-schema#Class", "label": { "@language": "zh", "@value": "神仙醋" } }, { "@id": "http://www.openkg.cn/BigCilin/class/C18149", "@type": "http://www.w3.org/2000/01/rdf-schema#Class", "label": { "@language": "zh", "@value": "化学 ...



十九、电商情感词典ECSD-master

数据源链接http://openkg.cn/dataset/ecsd

文件:ECSD-master\Do*

领域:电商 | 情感词汇

简介 电商相关的正面、负面、中性、多级和否定词汇

数据量:DoN | 否定词 | 29;DoP | 多极性观点 | 99;DoUM | 中性观点 | 82;DoUN | 负面观点 | 2084;DoUP | 正面观点 | 844

数据格式 文本格式,可直接使用

数据样例 |正面观点表达|DoUP|844|...物有所值,实惠,舒服...| |中性观点表达|DoUM|82|...美中不足,一般,凑合...| |负面观点表达|DoUN|2084|...伤不起,差评,贵...| |多极性观点表达|DoP|99|...水水的,大,高...| |否定词|DoN|29|...不,不怎么,没那么...| ...



二十、豆瓣电影

数据源链接http://openkg.cn/dataset/douban-movie-kg

文件:dbmovies.json

领域:电影

简介 电影的名字、导演、编剧、演员、类型、地区、语言、上映时间、别名等

数据量:4587

数据格式 json文件,可直接使用

数据样例 [ { "id": 25746375, "title": "我是路人甲", "url": "http://movie.douban.com/subject/25746375/", "cover": "http://img3.douban.com/view/movie_poster_cover/lpst/public/p2252471054.jpg", "rate": 7.4, "director": [ "尔冬升" ], "composer": [ "尔冬升" ], "actor": [ "万国鹏", "王婷", "沈凯", "徐小琴", "林晨", "魏星", "蒿怡帆", "蒿怡菲 ...



二十一、股票相关知识图谱

数据源链接http://openkg.cn/dataset/stockdata

文件:data.json

领域:股票

简介 港股、a股、美股部分股票的上市场所、公司名、公司总裁、行业、员工人数、注册地址、股票代码、邮编等

数据量:25527

数据格式 json文件,可直接使用

数据样例 [ { "上市场所": "美国纽约证券交易所", "公司名称": "安捷伦科技公司", "公司总裁": "Michael R. McMullen", "公司简称": "安捷伦科技", "公司网址": "", "办公地址": "5301 Stevens Creek Blvd.Santa ClaraCalifornia 95051", "员工人数": "13500", "所属行业": "电子设备和仪器", "注册地址": "Delaware", "联系传真": "--", "联系电话": "1-408-3458886", "股票代码": "A", "英文名称": "Agilent Technologies, Inc.", "邮政编码": "95051" }, { "上市场所": "美国纽约证券交易所", "公司名称 ...



二十二、汉语开放词网(Chinese Open WordNet)

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/wordnet

文件:wn-data-cmn.tab

领域:wordnet

简介 wordnet数据,cmn:lemma

数据量:79810

数据格式 tab文件,\t分隔符,需二次处理

数据样例 02062744-n cmn:lemma 02689973-a cmn:lemma 鲸+的 02005399-n cmn:lemma 鲸头鹳 02005238-n cmn:lemma 鲸头鹳属 02005102-n cmn:lemma 鲸头鹳科 02158619-n cmn:lemma 鲸尾叶突 15049902-n cmn:lemma 鲸油 14781989-n cmn:lemma 鲸油 02062209-n cmn:lemma 鲸目 02062430-n cmn:lemma 鲸目动物 02689973-a cmn:lemma 鲸目哺乳动物+的 02062209-n cmn:lemma 鲸类 02689973-a cmn:lemma 鲸类+的 14781989-n cmn:lemma 鲸脂 01993830-n cmn:lemma 鲸虱 01993714-n cmn:lemma 鲸虱属 14758252-n cmn:lemma 鲸须 14758252-n cmn:lemma 鲸骨 03323319-n cmn:lemma 鲸骨衬箍 02062744-n cmn:lemma 鲸鱼 ...


[Dataset Part 2] 文件:wn-cmn-lemon.xml

简介 unique words?

数据量:数据缺失

数据样例 决斗 录音磁带 归来 迷走神经+的 极不公正+地 怕 二价盐 大地线 神志清醒 知性+的 心绞痛 怀抱大志者 无忧无虑 适于掘地+的 苦恼 引言 展出 美洲黑杜鹃 机器螺钉 氢溴酸盐 姑茑 微小+的 不干净+的 肯定的回答 面部 白臀野牛 南极 不及格+的 用铅笔写 小腓鱼 葡萄核 去分化 矮矮胖胖 可改动+的 ...


[Dataset Part 3] 文件:wn-cmn-lmf.xml

简介 synsets

数据量:数据缺失



二十三、机器之心开放人工智能词库

数据源链接http://openkg.cn/dataset/synced-ai

文件:Artificial-Intelligence-Terminology-master\data*.md

领域:AI术语

简介 AI相关术语的 英文/缩写|汉语|来源&扩展 等信息

数据量:500

数据格式 md格式,需要二次处理

数据样例 Activation Function|激活函数|[1] / [2] Accumulated error backpropagation|累积误差逆传播|[1] Adaptive Resonance Theory/ART|自适应谐振理论|[1] ...



二十四、基于cnSchema的机场知识图谱

数据源链接http://openkg.cn/dataset/kg-airport

文件:airportcnschema.json

领域:机场

简介 世界各机场的名称、时区、地址、机场代码、地理位置(经纬度)等(中国机场有中文城市名机场名等);数据来源openflights/wikipedia/航旅纵横/百度地图等。

数据量:12547

数据格式 json文件,可直接使用

数据样例 "@graph": [ { "@id": "a6f547d1a465d0a66e32e61585b40cdf0883a61c", "@type": [ "Airport", "CivicStructure", "Place", "Thing" ], "address": { "@type": [ "PostalAddress", "Thing" ], "addressCountry": "Marshall Islands", "city": "4" }, "geo": { ...



二十五、基于cnSchema的三体人物关系知识图谱

数据源链接http://openkg.cn/dataset/kg-santi

文件:santirelationships.json

领域:三体 | 人物

简介 三体人物关系

数据量:20个节点,23个人物名,四个关系

数据格式 json文件,可直接使用

数据样例 "graph": [ { "@id": "http://openkg.cn/dataset/kg-santi#关一帆", "@type": "Person", "name": "关一帆", "relationships": { "charactersInNovel": { "@type": "Person", "name": "刘慈欣" }, "collaborator": [ { "@type": "Person", "name": "艾AA" }, { ...



二十六、基于limes的中文知识图谱融合实战演练教程

数据源链接http://openkg.cn/dataset/limes-tutorial

文件:*.nt

领域:知识库实体resource?

简介 cndbpedia zhwiki pkubase belief-engine知识库实体名字和resource的对应关系;没太看懂;

数据量:interest_triple_actor_final_pku_label.nt;15529;ml_train_data_zhishime.nt;500;zhwiki_labels_zh.nt;575770;interest_triple_actor_final_belief_label.nt;4695;interest_triple_actor_final_pku_label.nt;15529;ml_train_data.nt;600;cndbpediaDump_26.nt;358986;zhwiki_labels_zh.nt;575770

数据格式 nt文件,需二次处理

数据样例 ========== MLALgorithm使用实例-领域与百科数据集之间的匹配\领域与百科数据集之间的匹配\interest_triple_actor_final_pku_label.nt ==========

pkubase resource - label - 名字


data count: 15529
​
<http://pkubase/entity/100598790>   <http://pkubase/ontology/label> "韦斯卡_(西班牙阿拉贡自治区城市)" .
<http://pkubase/entity/100153733>   <http://pkubase/ontology/label> "天使之翼_(游戏系列)" .
<http://pkubase/entity/11619834>    <http://pkubase/ontology/label> "袁丽嫦" .
<http://pkubase/entity/4971>    <http://pkubase/ontology/label> "朝阳_(北京市朝阳区)" .
<http://pkubase/enti ...



二十七、家电控制语义知识图谱

数据源链接http://openkg.cn/dataset/semantic

文件:smart-home-wordnet.csv

领域:家电控制

简介 空调、洗衣机、冰箱、热水器等不同种类家电的控制语义及词汇

数据量:1379

数据格式 csv文件,元组关系需要二次整理

数据样例 _id:id _labels:label name title unit off_shelve:long cold_warm frequency loc en_name type adaptable_automobile_mode freezing_medium url image _start:id _end:id _type:label name1 2449 :System 系统类 WordNet 2450 :scene CulturalEntertainment WordNet 2451 :CulturalEntertainment 文化娱乐 WordNet 2479 :scene PersonalService WordNet 2480 :PersonalService 个性化服务 WordNet 2481 :scene SceneService WordNet 2482 ...



二十八、金融时序超图

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/ftho

文件:fin-temporal-hypergraph.owl

领域:金融

简介 面对金融领域多元关系表示的困境和时序事件表示需求,结合超图概念和事件5W(When,Where,Why,What,Who)定义,构建了可通用化的金融时序超…

数据格式 不懂


[Dataset Part 2] 文件:data.nt

简介 三种多元关系:(环形)交叉持股—形成环形有向拓扑、一人兼多家公司董事—形成星型外向拓扑、(债券)共同担保—形…

数据量:52

数据样例

<http://www.semanticweb.org/2021/4/27/fin-temporal-hypergraph#黄晖> <http://www.semanticweb.org/2021/4/27/fin-temporal-hypergraph#bondTogetherGuarantee> <http://www.semanticweb.org/2021/4/27/fin-temporal-hypergraph#Bond128118> .
<http://www.semanticweb.org/2021/4/27/fin-temporal-hypergraph#宁波美诺华控股集团有限公司> <http://www.semanticweb.org/2021/4/27/fin-temporal-hypergraph#bondTogetherGuarantee> <http://www.semanticweb.org/2021/4/27/fin-temporal-hypergraph#Bond113618> . ...



二十九、空气质量语义描述

数据源链接http://openkg.cn/dataset/airquality

文件:*.json-ld

领域:气象

简介 北京、广州、杭州、南京、上海、沈阳、石家庄、武汉、重庆在2014-02-01T01:00:00Z到2015-02-04T14:00:00Z各地方每小时的气象情况,包括时间、地名、空气质量、AQI、pm指数、污染物等

数据量:768359

数据格式 json格式,可直接使用

数据样例 { "@graph" : [ { "@id" : "http://openkg.cn/locigraph#time_entity_2014-02-01T01:00:00Z", "hasTimeValue" : "2014-02-01T01:00:00Z" }, { "@id" : "http://openkg.cn/locigraph#time_entity_2014-02-01T02:00:00Z", "hasTimeValue" : "2014-02-01T02:00:00Z" }, { "@id" : "http://openkg.cn/locigraph#万寿西宫-2014-02-01T01:00:00Z", "hasAQI" : "0", "hasAuthor" : "http://openkg.cn/locigraph#author-cjy", "hasPm10" : "0", "hasPm25" : "0", "hasPrimaryPollution" : "", "hasQu ...



三十、论文知识图谱

数据源链接http://openkg.cn/dataset/paper-kg

文件:paper-kg.json

领域:论文

简介 论文类别、作者、引用被引用关系;数据来源Semantic Scholar数据集

数据量:31478个paper; 604378个引用被引用关系

数据格式 json格式,可直接使用

数据样例 { "@id": "f6370fe63ff9c7191335c3e5de8d4b6935ae1792", "@type": "paper", "fieldsOfStudy": "Computer Science", "relationship": { "inCitations": [ { "@type": "paper", "@id": "8ba747f106944eff37e6cca1fc62a4b56cc58d86" } ], "outCitations": [ { "@type": "paper", ...



三十一、七律-通用知识图谱

数据源链接http://openkg.cn/dataset/7lore

文件:7Lore_triple.csv

领域:百科

简介 百科知识图谱,包含了事物、事实、概念、规则等

数据量:文件损坏,据说有8000w百科三元组,重新下载文件也损坏



三十二、企业投融资事件知识图谱

数据源链接http://openkg.cn/dataset/data2

文件:graph.json

领域:企业 | 投资/融资

简介 企业名字、法人、注册资金、成立时间、行业、地址、经营范围、融资事件(投资人、融资轮数、金额、时间)等;不是所有企业都有融资事件

数据量:3582

数据格式 json格式,可直接使用

数据样例 { "name": "北京恒康屠宰有限公司", "financingEvent": [], "legalRepresentative": "郭文福", "registeredCapital": 200.0, "paidUpCapital": 200.0, "status": "开业", "foundingDate": "2009-12-10", "creditCode": "91110115697664906X", "taxID": "91110115697664906X", "regId": "110115012476732", "organizationCode": "69766490-6", "type": "有限责任公司(自然人投资或控股)", "industry": "制造业", "approvalDate": "2017-12-15", ...



三十三、企业知识图谱

数据源链接http://openkg.cn/dataset/openekg

文件:ekg-jsonld/EKG-JSON/*.json *.jsonld

领域:企业

简介 企业财务、地址、股票、合同、机构、计划、联系方式、纳税、企业、上市、声明、声明来源、实益、所有权、文件、项目、信用、中标、专利、自然人等信息;各关系分别存在不同的json文件

数据量:共69979个关系

数据格式 json格式,有的为utf-8有的为utf-9-sig编码;.json文件的关系需按照binding-subject-value进行合并

数据样例 { "head" : { "vars" : [ "subject", "property", "object" ] }, "results" : { "bindings" : [ { "property" : { "type" : "uri", "value" : "http://www.semanticweb.org/administrator/ontologies/2018/11/XBRLMetadatacharacteristicIdentifier" }, "subject" : { "type" : "uri", "value" : "base:lrb1" }, "object" : { "type" : "literal", "value" : "营业总收入" } }, { "@id" : "base:1", "http://localhost/openek ...



三十四、清华大学-科技知识图谱

数据源链接http://openkg.cn/dataset/scikg

文件:SciKG_min_1.0\SciKG_min_1.0.txt

领域:科技

简介 计算机科学领域,由概念、专家和论文、专家职位、隶属机构、研究兴趣、论文标题、中文名、作者、摘要、出版地点、年份、论文子父节点等信息;概念定义大多来自维基百科,专家和论文为概念对应的顶尖专家和论文;

数据量:20502个概念;206240个专家;512698篇论文

数据格式 txt格式(内部是json格式),可直接使用

数据样例 [ { "id": 1, "name": "General and reference", "name_zh": "\u4e00\u822c\u548c\u53c2\u8003", "level": 0, "definition": "", "definition_zh": "", "child_nodes": [ 2, 155 ], "parent": 0, "experts": [ { "id": "53f4cc4adabfaeebdcf80ce2", "name": "Kees Van Deemter", "name_zh": "", "position": "", "h_index": ...



三十五、乳腺癌临床试验语义标注

数据源链接http://openkg.cn/dataset/http-wasp-cs-vu-nl-breastcancerkg-release-bckgv02-20160622-breastcancer-eligibilitycriteria-2015-zip

文件:*.nt

简介 乳腺癌临床试验语义标注,注解、检查、资格标准、患者、试验等信息

数据量:5k~1w

数据格式 nt格式,需要二次处理;一个nt文件为单独一个关系?大概有

数据样例 http://wasp.cs.vu.nl/sct/id#gl002-zsh140412_10_1http://eurecaproject.eu/ctec/hasAnnotationhttp://wasp.cs.vu.nl/sct/id#gl002-zsh140412_10_1a1. http://wasp.cs.vu.nl/sct/id#gl002-zsh140412_10_1a1http://eurecaproject.eu/ctec/hasTerm"malignancy". http://wasp.cs.vu.nl/sct/id#gl002-zsh140412_10_1a1http://eurecaproject.eu/ctec/hasSenseshttp://wasp.cs.vu.nl/sct/id#gl002-zsh140412_10_1a1s. http://wasp.cs.vu.nl/sct/id#gl002-zsh140412_10_1a1shttp://eurecaproject.eu/ctec/Sense"269513004|1 ...



三十六、思知医疗知识图谱

数据源链接http://openkg.cn/dataset/medical

文件:Disease.csv

领域:医疗 | 疾病知识

简介 疾病简介、科室分类、患病比例、易感人群、治疗方式、治愈率、病因、症状、推荐食谱、推荐药物等

数据量:483272行(关系);14955个疾病

数据格式 csv格式,可直接使用

数据样例 百日咳[疾病],简介,"百日咳(pertussis,whooping cough)是由百日咳杆菌所致的急性呼吸道传染病。其特征为阵发性痉挛性咳嗽,咳嗽末伴有特殊的鸡鸣样吸气吼声。病程较长,可达数周甚至3个月左右,故有百日咳之称。多见于5岁以下的小儿,幼婴患本病时易有窒息、肺炎,脑病等并发症,病死率高。百日咳患者,阴性感染者及带菌者为传染源。潜伏期末到病后2-3周传染性最强。百日咳经呼吸道飞沫传播。典型患者病程6-8周,临床病程可分3期:1.卡他期,从发病到开始出现咳嗽,一般1-2周。2,痉咳期,一般2-4周或更长,阵发性痉挛性咳嗽为本期特点。3,恢复期,一般 1-2周,咳嗽发作的次数减少,程度减轻,不再出现阵发性痉咳。一般外周血白细胞计数明显增高,分类以淋巴细胞为主。在诊断本病时要注意与支气管异物及肺门淋巴结结核鉴别。近年来幼婴及成人发病有增多趋势。" 百日咳[疾病],一级科室分类,疾病 百日咳[疾病],二级科室分类,儿科 百日咳[疾病],三级科室分类,小儿内科 百日咳[疾病],医保疾病,否 百日咳[疾病],患病比例,0.5% 百日咳[疾病],易感人群,多见于小儿 百日咳[疾病],传染 ...



三十七、突发事件知识图谱

数据源链接http://openkg.cn/dataset/http-202-114-255-99-8098-emergency-sparql-html

文件:emergency.rdf

领域:突发事件

简介 突发事件的名字、危害、发生时间、描述、地区、所属父事件等;包括师父中毒、泥石流、社会安全、公共卫生事件等;

数据量:540个事件,37种事件

数据格式 rdf格式,需二次处理

数据样例 <j.0:食物中毒 rdf:about="http://www.wust.edu.cn/emergency/黑龙江依兰县出现饮用水污染 居民呕吐发烧"> <Property:relevant_resources rdf:resource="http://news.qq.com/a/20110424/000622.htm "/> Property:casualties7个小区、2675户居民饮水受到影响/Property:casualties Property:description从22日开始,依兰县依兰镇局部街区居民陆续出现腹泻、腹痛症状。据当地政府部门初步认定,此次事件是地下供水管线受到渗水井污染,导致大肠杆菌超标引起饮用水污染。/Property:description Property:enddate2011-04-24/Property:enddate Property:begindate2011-04-24/Property:begindate <Property:location rdf: ...



三十八、图书问答知识图谱

数据源链接http://openkg.cn/dataset/bookqa

文件:ntriples.nt

领域:图书

简介 图书标题、评分、作者、作者国籍、译者、译者国籍、出版社、出版日期、价格、标签等;共计 172112 条三元组,包括 9335 本图书,10566 个人,1030 家出版社

数据量:172112个三元组;9335本书;10238个人;1030家出版社

数据格式 nt文件,需要二次处理

数据样例 http://kg.com/book/000001 http://kg.com/book/ontology/title "仿制药的真相"^^http://www.w3.org/2001/XMLSchema#string . http://kg.com/book/000001 http://kg.com/book/ontology/rating "8.9"^^http://www.w3.org/2001/XMLSchema#float . http://kg.com/person/000001 http://kg.com/book/ontology/chineseName "凯瑟琳·埃班"^^http://www.w3.org/2001/XMLSchema#string . http://kg.com/person/000001 http://kg.com/book/ontology/country "美国"^^http://www.w3.org/2001/XMLSchema#string . <http://kg.com/book/000 ...



三十九、网易云音乐知识图谱和音乐推荐系统

数据源链接http://openkg.cn/dataset/163music

文件:*.json

领域:音乐

简介 华语、欧美、日本、韩国热门音乐的歌名、歌手名、专辑名、歌词、相似歌曲名、歌单名等信息;

华语热门音乐图谱:共计165346条三元组,包含了10962首音乐、5827张专辑、1098个艺术家、3870个歌单
欧美热门音乐图谱:共计195411条三元组,包含了12405首音乐、7724张专辑、1783个艺术家、3345个歌单
日本热门音乐图谱:共计151864条三元组,包含了10171首音乐、3090张专辑、882个艺术家、1883个歌单
韩国热门音乐图谱:共计132284条三元组,包含了9227首音乐、4280张专辑、1152个艺术家、1719个歌单

数据量:共42765首歌;据文件描述有644905个三元组(关系)

数据格式 json文件,一行为一首歌,三元组关系需要再提取

数据样例 {"_id":"1346104327","name":"多想在平庸的生活拥抱你","artist_ids":["12429072"],"artist_names":["隔壁老樊"],"album_id":"75019098","album_name":"我曾","lyric":"[by:Lucky-SN]- 作曲 : 隔壁老樊- 作词 : 隔壁老樊-制作人:段小林-编曲:黄超-**-世界上有很多的东西-你生不带来死不带去-你能带走的只有自己和自己的脾气-你曾拥有最美的爱情-你听过最美丽的旋律-触摸过一个人孤独的恐惧-也看到过最美的风景-我跌跌撞撞奔向你-你也不能一个人离去-我们在一起说过-无论如何一起经历了风雨-平平淡淡安安静静的老去-**-世界上有很多的东西-你生不带来死不带去-你能带走的只有自己和自己的脾气-你曾拥有最美的爱情-你听过最美丽的旋律-触摸过一个人孤独的恐惧-也看到过最美的风景-我跌跌撞撞奔向你-你也不能一个人离去-我们在一起说过-无论如何一起经历了风雨-平平 ...



四十、微观经济学知识库

数据源链接http://openkg.cn/dataset/microeconomy

文件:microeco.json

领域:微观经济学 | 术语名词

简介 微观经济学中的知识逻辑,市场主体、市场客体、市场行为,关系为is、include、positively related、negatively related。

数据量:58

数据格式 json文件,可直接使用

数据样例 { "object": "消费者边际效用", "relation": "负相关", "subject": "消费量" }, { "object": "增加一单位产品的消费所带来的效用的增量", "relation": "是", "subject": "消费者边际效用" }, { "object": "生产率", "relation": "正相关", "subject": "生产专业化" }, { "object": "生产率", "relation": "正相关", "subject": "社会分工" }, { "object": "商品需求", "relation": "负相关", "subject": "商品价格" }, { "object": ...



四十一、微软概念图谱

数据源链接:找不到

文件:data-concept-instance-relations.txt

领域:百科

简介 类型/关系 实体 count?

数据量:33377320个三元组;5376525个关系?(第一列);12501526个实体?(第二列)

数据格式 txt文件,\t为分隔符,每列含义需再确定

数据样例 factor age 35167 free rich company datum size 33222 free rich company datum revenue 33185 state california 18062 supplement msm glucosamine sulfate 15942 factor gender 14230 factor temperature 13660 metal copper 11142 issue stress pain depression sickness 11110 variable age 9375 information name 9274 state new york 8925 social medium facebook 8919 material plastic 8628 supplemental material cds 8175 supplemental mat ...



四十二、医疗人工智能知识图谱

数据源链接http://openkg.cn/dataset/medicalai

文件:medicalai.json

领域:医疗、人工智能词汇

简介 通过8种器官,20余种疾病作为疾病前缀,通过 “Deep Learning”, “Automatic”, “Neural Network”, “CNN” “Net” 等深度学习关键词作为模板进行文件检索在期刊网站上爬去搜索标题、只要、关键词。

数据量:85个实体,213个关系

数据格式 json文件,一行为一个实体

数据样例 {"name": "深度学习在医学影像分析中的应用", "link": "", "target": ",深度学习模型与方法,深度学习任务,医学影像应用,研究前沿", "relation": ",包含,包含,包含,包含"} {"name": "深度学习模型与方法", "link": "", "target": ",U-网络,VGG19网络,Inception网络,残差网络,多模态结构,多流态结构,循环神经网络,对抗生成网络,3D U-网络,V 网络,全卷积网络,区域卷积网络(R-CNN),3D卷积网络,Mask区域卷积网络(Mask R-CNN),网络参数蒸馏方法,困难样本挖掘方法,词向量嵌入,迁移学习方法,半监督学习方法,自监督学习方法", "relation": ",包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含,包含"} {"name": "U-网络", "link": "https://arxiv.org/abs/1505.04597", "target": "", "relation": ""} {"name": ...



四十三、医疗问答知识图谱

数据源链接http://openkg.cn/dataset/mediacalqa

文件:medical.json

领域:医疗 | 疾病知识

简介 疾病名称、描述、所属科目、预防、病因、症状、是否支持医保、传染性、发病率、治愈率、治疗费、推荐食物、推荐药物、推荐药物细节等信息

数据量:8808个病症

数据格式 json文件,一行一个病症

数据样例

{
  "_id": {
    "$oid": "5bb578b6831b973a137e3ee7"
  },
  "name": "百日咳",
  "desc": "百日咳(pertussis,whoopingcough)是由百日咳杆菌所致的急性呼吸道传染病。其特征为阵发性痉挛性咳嗽,咳嗽末伴有特殊的鸡鸣样吸气吼声。病程较长,可达数周甚至3个月左右,故有百日咳之称。多见于5岁以下的小儿,幼婴患本病时易有窒息、肺炎,脑病等并发症,病死率高。百日咳患者,阴性感染者及带菌者为传染源。潜伏期末到病后2-3周传染性最强。百日咳经呼吸道飞沫传播。典型患者病程6-8周,临床病程可分3期:1.卡他期,从发病到开始出现咳嗽,一般1-2周。2,痉咳期,一般2-4周或更长,阵发性痉挛性咳嗽为本期特点。3,恢复期,一般1-2周,咳嗽发作的次数减少,程度减轻,不再出现阵发性痉咳。一般外周血白细胞计数明显增高,分类以淋巴细胞为主。在诊断本病时要注意与支气管异物及肺门淋巴结结核鉴别。近年来幼婴及成人发病有增多趋势。",
  "category": [
    "疾病百科",
    "儿科",
    "小儿 ...



四十四、英雄联盟人物势力关系

数据源链接:找不到

文件:kglol.rdf

领域:英雄联盟

简介 英雄联盟人物名字、类型、昵称、各种技能值、与其他英雄的关系等信息

数据量:168个英雄?

数据格式 rdf文件,需二次处理

数据样例 <rdf:Description rdf:about="#hero/诺提勒斯"> <map:属于 rdf:resource="#region/比尔吉沃特"/> <map:hero_hero_pd_grow rdf:datatype="http://www.w3.org/2001/XMLSchema#double">3.0E0/map:hero_hero_pd_grow <map:hero_hero_attack_grow rdf:datatype="http://www.w3.org/2001/XMLSchema#double">3.0E0/map:hero_hero_attack_grow <map:hero_hero_move_speed rdf:datatype="http://www.w3.org/2001/XMLSchema#double">325.0E0/map:hero_hero_move_speed <map:hero_hero_md_grow rdf:datatype="http://www.w3.org/2001/ ...



四十五、有色行业产业链图谱

数据源链接http://openkg.cn/dataset/aitech

文件:有色行业产业链图谱.json

领域:“有色”行业

简介 有色金属、贵金属、稀土、金属非金属新材料板块的产品产业链信息。展示行业内部结构的关系有“下位行业”、“主要产品”、“下位产品”;展示产品上下游的关系有“下游”。如 稀土氧化物 - 下位产品 - 氧化钇(Y2O3), 有色金属行业 - 下位行业 - 黄金行业

数据量:255个关系

数据格式 json文件,可直接使用

数据样例 { "row": [ { "name": "稀土氧化物" }, { "name": "下位产品" }, { "name": "氧化钇(Y2O3)" } ], "meta": [ { "id": 5448, "type": "node", "deleted": false }, { "id": 7037, ...



四十六、中国旅游景点知识图谱

数据源链接http://openkg.cn/dataset/tourist-attraction

文件:casia-kb-tourist-attraction.nt

领域:旅游景点

简介 旅游景点的中文名、拼音、所在地、别名、总面积、景点个数、特点等,馆藏名字、所在博物馆等,名人名字、所涉及地点等信息;抽取自百度百科和互动百科;

数据量:1982个关系

数据格式 nt文件,需二次处理

数据样例 http://www.brain-inspired-cognitive-engine.org/knowledge-engine/cas-kb/yan-dang-shan http://www.brain-inspired-cognitive-engine.org/knowledge-engine/cas-kb/suozaidi http://www.brain-inspired-cognitive-engine.org/knowledge-engine/cas-kb/zhong-guo-dong-nan-wen-zhou-shi-jing-he-tai-zhou-shi-nan-bu . http://www.brain-inspired-cognitive-engine.org/knowledge-engine/cas-kb/yan-dang-shan http://www.w3.org/2000/01/rdf-schema#label "雁荡山" . <http://www.brain-inspired-cognitive-engine.org/knowledg ...



四十七、中国主要城市信息知识图谱及其知识问答

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/cityknowledge

文件:图谱构建代码和可视化代码\graph\城市信息.csv

领域:城市

简介 城市名字、行政级别、rgdp、车牌前缀、别名、人口数 、所在省、英文名等信息

数据量:342个城市

数据格式 csv文件,可直接使用

数据样例 ,城市名,英文名,别名,人口数量,地区生产总值,车牌号,行政级别,省份 0,玉林市,Yulin,郁林,736.97万,1679.77亿元,桂K,地级市,广西壮族自治区 1,盐城市,Yancheng,盐渎、瓢城、登瀛、百河之城,821.35 万,5702.26亿元,苏J,地级市,江苏省 2,宿州市,Suzhou,宿城、云都、蕲城郡,568.14 万,1978.75 亿元,皖L,地级市,安徽省 3,葫芦岛市,Huludao,筝岛,锦西,275.8 万,807.1 亿元,辽P,地级市,辽宁省 ...


[Dataset Part 2] 文件:图谱构建代码和可视化代码\graph\城市接壤数据.csv

简介 城市接壤信息:被接壤城市、城市

数据量:1900

数据格式 csv文件,可直接使用

数据样例 city_1,city 池州市,安庆市 六安市,安庆市 九江市,安庆市 巢湖市,安庆市 铜陵市,安庆市 黄冈市,安庆市 滁州市,蚌埠市 亳州市,蚌埠市 淮北市,蚌埠市 淮南市,蚌埠市 宿州市,蚌埠市 ...



四十八、中文百科知识图谱Zhishi.me-提供Dump

数据源链接http://openkg.cn/dataset/zhishi-me-dump

文件:zhishimejson\zhishime_json\ baidubaike hudongbaike zhwiki *\home\wl\zhishime2**.json

领域:百科

简介 百度百科、互动百科、zhwiki相关词条的词、摘要、类别、文章链接、类别标签、消歧义、外部链接、图片、图片信息、信息属性、信息定义、内链接、标签、重定向、相关页面、实例类型等信息;zhwiki还有别名、dbpedia链接、修订信息、skos类别等信息;还有baidubaike、hudongbaike、zhwiki连接的对应关系信息。

摘要、类别、信息等分别单独存于*_abstrace_zh*、*_categories_*等json文件

数据量:52559540个百科;4252402个百科链接对应关系;大概16583415个词条实体?

数据格式 json文件,可直接使用

数据样例 ====== 3.0_baidubaike_abstracts_zh.json ==========

data count:  551949
{'@id': 'http://zhishi.me/baidubaike/resource/哥德萝莉', 'http://zhishi.me/ontology/abstract': [{'@language': 'zh', '@value': '哥德萝莉又称为哥特式洛丽塔(Gothic Lolita),源自欧洲的哥特次文化,经日本吸收后,成为一种与哥特完全不同的艺术风格。主要指的是该种风格的艺术,包括穿着打扮、音乐、文学创作、绘画等艺术相关作品。现主要指该类服装。正式称呼为ゴシック・アンド・ロリータ(Gothic And Lolita),简称GothLoli ( ゴスロリ),即哥德萝莉。'}]}
{'@id': 'http://zhishi.me/baidubaike/resource/女祭司', 'http://zhishi.me/ontology/abstract': [{'@language': 'zh', '@value': '据说古 ...



四十九、中文百科知识图谱-zhOnto-提供Dump

数据源链接http://openkg.cn/dataset/zhonto

文件:zhontodump*.rdf

领域:百科

简介 词条的名字、subject、关系、相似、等信息;数据源于wikidata zh部分

数据量:共61801244行;大概总共有2930151个实体?

数据格式 rdf文件,需二次处理

数据样例 http://zhonto.org/resource/SUSAT瞄准镜 http://www.w3.org/2000/01/rdf-schema#label "SUSAT瞄准镜"@zh . http://zhonto.org/resource/SUSAT瞄准镜 http://www.w3.org/2000/01/rdf-schema#label "SUSAT"@zh . http://zhonto.org/resource/SUSAT瞄准镜 http://www.w3.org/2000/01/rdf-schema#comment "SUSAT(英语:Sight Unit Small Arms, Trilux,意为:由Trilux生产的轻武器瞄准装置)是一种4 倍的放大倍率的快拆式(英文:Quick-detachable)望远镜,在黄昏和黎明时段,可以使用内置的氚灯作供电照明。此瞄准镜在现在的英国军队之中的全称为SUSAT L9A1。此瞄准镜的设计并不是作为狙击手专用的瞄准具,而是要安装在各种步枪上,而英国军队亦期望所有被所有的步兵所使用。类似这种瞄准镜的是美国T ...



五十、中文通用百科知识图谱(CN-DBpedia)

[Dataset Part 1] 数据源链接http://openkg.cn/dataset/cndbpedia

文件:baiketriples\baike_triples.txt

领域:百科

简介 实体的名字、类别、tag、时间、地点、结果等信息;数据来源百度百科、互动百科、中文维基百科等;包含900万+的百科实体以及6700万+的三元组关系。其中mention2entity信息110万+,摘要信息400万+,标签信息1980万+,infobox信息4100万+

数据量:65001293;大概总共有9412272个实体?

数据格式 txt文件,\t分隔符,可直接使用

数据样例 != BaiduTAG 语言术语 !DOCTYPE BaiduCARD !文档类型,一个文档类型标记是一种标准通用标记语言的文档类型声明,它的目的是要告诉标准通用标记语言解析器,它应该使用什么样的文档类型定义(DTD)来解析文档 !DOCTYPE BaiduTAG 科技 !DOCTYPE BaiduTAG 计算机学 !DOCTYPE 中文名 !文档类型 !DOCTYPE 外文名 DOCument TYPE !K7 BaiduTAG 音乐 !K7 BaiduTAG 专辑 !K7 BaiduTAG 音乐人物 "071"特大组织淫秽表演案 BaiduCARD “071”特大组织淫秽表演案(“071” especially big organization obscene performance document ;"071" obscene performances the case of large organizations)。|||“是引起公安部高度重视并被直接定名的、指定由荆州市公安局网监支队办理的 ...


[Dataset Part 2] 文件:m2e\m2e.txt

简介 mention to entity

数据量:1120313

数据格式 txt文件,\t分隔符,可直接使用

数据样例 ! 感叹号 " "(标点符号) " "(长度单位) "10·28"暴力恐怖袭击案件 10·28暴力恐怖袭击案 "118"组织、领导传销系列案 "1·18"组织、领导传销系列案 "12.4"全国法制宣传日 全国法制宣传日 "20110805"特大跨省贩卖毒品案 "2011·08·05"特大跨省贩卖毒品案 "333"素质教育的理论与实践 "3·3·3"素质教育的理论与实践 HACCP HACCP HD HD(HD水溶性去屑因子) HK11A1式7.62mm轻机枪 hk11a1式7.62mm轻机枪 HK13式5.56mm轻机枪 HK13式5.56mm轻机枪 ...



五十一、中文症状库

数据源链接http://openkg.cn/dataset/symptom-in-chinese

文件:dsc.nlp-bigdatalab.org\dsc.nlp-bigdatalab.org.ttl

领域:医疗 | 症状

简介 症状类型、相关症状疾病、症状相关科室、症状相关药品 / 药品类型 等信息;

数据量:1008765;大概总共有144605个实体?

数据格式 ttl文件,需要二次处理

数据样例 http://dsc.nlp-bigdatalab.org:8086/ontology/#疾病 http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://www.w3.org/2002/07/owl#Class . http://dsc.nlp-bigdatalab.org:8086/ontology/#疾病 http://www.w3.org/2000/01/rdf-schema#subClassOf http://www.w3.org/2002/07/owl#Thing . http://dsc.nlp-bigdatalab.org:8086/ontology/#症状 http://www.w3.org/1999/02/22-rdf-syntax-ns#type http://www.w3.org/2002/07/owl#Class . http://dsc.nlp-bigdatalab.org:8086/ontology/#症状 <http://www.w3.org/2000/01/rdf ...



五十二、主要保险公司保险产品的数据库

数据源链接http://openkg.cn/dataset/ensurance

文件:全部保险产品清单.xls

领域:保险

简介 保险公司的保险产品的类别、定位、销售状态和链接;可构建 公司-保险类型-保险产品 三元组?

数据量:15529

数据格式 csv格式,可直接用

数据样例 公司名称 产品名称 类别1 类别2 类别3 类别4 产品类别 设计类型 销售状态 说明书链接 说明书文件 产品链接 安邦人寿保险股份有限公司 安邦一年团体定期寿险 人寿保险 定期寿险 人寿保险-定期寿险 传统型产品 在售 http://www.iachina.cn/IC/tkk/03/f5ee769b-ed10-4cdb-93b2-e5b18cb7d024_TERMS.PDF G:\data\保险条款\f5ee769b-ed10-4cdb-93b2-e5b18cb7d024_terms.pdf http://www.iachina.cn/IC/tkk/01/f5ee769b-ed10-4cdb-93b2-e5b18cb7d024.html 安邦人寿保险股份有限公司 安邦安祥1号定期寿险 人寿保险 定期寿险 人寿保险-定期寿险 传统型产品 在售 http://www.iachina.cn/IC/tkk/03/2b1ea04d-1021-47ce-a1cd-4db4ce4e5857_TERMS.PDF G:\data\保险条款\2b1ea04d-1021-47ce-a1cd-4db ...

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。