华为云知识图谱服务--结构化数据实践(上)
建议先熟悉华为云知识图谱服务文档,了解使用流程和相关概念:https://support.huaweicloud.com/productdesc-kg/kg_02_0001.html
图谱构建流程:
华为云知识图谱目前还在公测当中,使用免费,直接申请公测即可。获得公测资格后,会有短信通知。
tips:准确填写个人信息,清楚描述自身业务场景,可以更快获得公测资格~
下面咱们开始:
1. 准备数据
用户需要自己准备输入数据,上传到OBS(华为云对象存储服务)。此次演示使用该服务提供的“最佳实践”数据。该份数据可用于构建一个小规模的电影-人物图谱。
FAQ:
1. 什么是OBS?如何上传数据到OBS?
OBS是华为云对象存储服务,在搜索栏搜索即可查到。可以在该服务网页上直接上传数据,或者下载该服务开发的工具ObsBrowser(视频中用的它)。更多信息请查看OBS文档。
2. 知识图谱服务支持哪些格式的结构化数据作为输入?
目前支持json、csv、excel三种格式的结构化数据。此次示例用的json格式数据,它是一个多行紧凑的json文件,每行是一个完整的json串。可以参考其文档:https://support.huaweicloud.com/usermanual-kg/kg_01_0010.html
2. 创建本体
FAQ:
1.什么是本体
本体(ontology)源于哲学中的本体论,哲学中的本体论旨在刻画存有本身。计算机和信息科学领域的本体侧重于描述认知的概念框架,表达概念之间的语义关系。我们这一步创建本体,实际上就是为此次要构建的知识图谱画了一个概念框架,它反映了人们对一个领域的认知。具体来说,它描述了图谱中有哪些类型的概念、概念之间存在怎样的关系、概念包含哪些属性。
3.创建图谱
准备好数据,并创建好本体后,我们可以通过流水线配置,创建知识图谱。
FAQ:
1.什么是实体类型字段?
对json格式输入来说,该字段表明输入数据中,每行json里,哪个字段对应的值是表示实体类型的,比如此次示例中是“entity_type”这个字段。我们在准备数据时,就应该设置这样一个字段来表示每行json数据对应的实体类型。
4.知识映射
配置完信息抽取后,需要配置知识映射的规则。设置抽取、映射前后的相关字段。
FAQ:
1.什么是实体唯一标识字段?
指输入的源数据中,能够唯一标识实体的主键字段。在准备输入数据时,应该设置这样一个字段来唯一标识该实体。此次示例的输入数据中“url”这个字段是实体唯一标识字段。
5.知识融合
知识融合是指融合来自多个数据源关于同一实体或概念的描述信息,对来自不同数据源的知识在统一规范下进行异构数据整合、消歧。具体请看视频。
- 点赞
- 收藏
- 关注作者
评论(0)