理解知识图谱(一)
文章目录
在学习本书前,我想在此夸一夸本书的作者,作者在每一大章的前面都会送读者一段励志话。
临渊羡鱼,不如退而结网。 — 《汉书 董仲舒传》
🥦1.1 知识图谱概述
🥦1.1.1 知识定义及分类
哲学家柏拉图先生曾经指明,知识的三个条件
- 合理性
- 真实性
- 被相信
从大白话来讲就是知识是人类通过观察学习等行为进而获得总结的产物或者说是集合。
如果我们从不同的研究视角、研究目的以及多知识的不同认识程度对知识进行分类的话,可以分为以下几种:
首先是层次划分
- 零级知识:最基本的知识,定义、定理等,问题求解的常识性和原理性知识。
- 一级知识:第二层知识,启发式知识,可弥补零级知识的不足,提高求解的效率。
- 二级知识:第三层知识,控制性知识,对低层知识起到指导作用,组织,运用零级和一级知识。
- 高层次知识:像回忆,综合,概况,抽象,也可以反映人类的心理。
其次是性质划分
- 叙述性知识:状态,概念,条件,事实
- 过程性知识:求解过程中用到的操作,演算,行动的知识
- 控制性知识:求解过程中决定选用哪种操作,演算,行动的知识
最后是来源划分
- 共识知识:来自教科书刊物,已经被专业人士承认。
- 个性知识:来自现场有经验的专业人士,包括大量的经验知识或启发式知识。它描述问题的轮廓,知识严格性差。
作者在这总结了一下,无论采用何种划分方式,目的都是为了构建知识实体之间的结构化关系网络的知识图谱,毕竟我们的目的还是搞出知识图谱的。
🥦1.1.2 知识图谱定义
知识图谱:以结构化的形式描述显示世界中的实体机器关系,将互联网庞大的信息网转化为更接近人类去认知的形式。
这里我仅仅简单概述了一下,想了解更多概念的可以参考百度百科。
知识图谱的相关概念有几个分别是:
- 概念
- 实体
- 关系
- 属性
我们可以理解为知识图谱就是将世界中的不同的种类的事物连接在一起而得到一个关系网络。
可以从上图看出,实体包括小李,小丁,跑步等,关系包括喜欢,同学等,概念就是人,运动之类的,属性就是面积:3000平方米。整张图还是很好理解的。当然这里面的细节我们也是要知道的。
比如:如果两个节点之间存在关系的话,那么它们之间就会被一条有向边连接在一起。本质来讲:知识图谱就是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化描述。组织形式:有向图
🥦1.1.3 知识图谱分类
书中在知识图谱分类上分为了两类,一种是通用知识图谱,一种是领域知识图谱
-
通用知识图谱(General Knowledge Graph): 这种知识图谱致力于涵盖各种主题,包括常识性的信息、人物、地点、历史事件等。通用知识图谱的目标是为用户提供广泛的知识,以满足各种查询和信息检索需求。例如,Google的知识图谱就是一个通用知识图谱的实例。
-
领域特定知识图谱(Domain-specific Knowledge Graph): 这类知识图谱专注于特定的领域或行业,以深入挖掘该领域的专业知识。领域特定知识图谱有助于更深入地理解特定领域的实体、关系和属性,支持专业性的应用。例如,在医学领域使用的医学知识图谱就是领域特定知识图谱的一个例子。当然还有可多的应用,书中还介绍了生活类知识图谱、社交类知识图谱、电商类知识图谱、金融类知识图谱等
作者还提到,不同的知识图谱并不是一蹴而就的,而是经过漫长的发展和积累进行得到的,这里面包括了前人的不断积累,值得我们去学习与敬佩。
🥦1.1.4 知识图谱发展阶段
早期阶段:
概念形成(2000年前): 早期的知识图谱概念主要体现在人工智能和语义网等领域。研究者们开始探索如何以图形结构的方式表示和组织知识。
语义网阶段(2001-2010年):
语义网的提出: 在这个阶段,Tim Berners-Lee提出了语义网的概念,强调在互联网上创建具有明确含义的数据链接。RDF(Resource Description Framework)和OWL(Web Ontology Language)等标准被引入,用于表示和推理关于网络资源的知识。
知识图谱概念的兴起(2012年前后):
Google知识图谱: Google于2012年推出了知识图谱,将知识图谱引入主流。这一阶段的重要事件包括谷歌的知识图谱以及百度、微软等公司对知识图谱概念的采纳。
知识图谱的应用拓展(2015年后):
应用扩展: 知识图谱在搜索引擎、虚拟助手、自然语言处理、推荐系统等领域得到广泛应用。各种知识图谱的建设和应用逐渐增多,包括通用知识图谱和领域特定知识图谱。
领域特定知识图谱的兴起(2018年后):
领域特定应用: 随着对于更深入领域知识的需求增加,领域特定知识图谱得到更广泛的应用,如医学知识图谱、金融知识图谱等。
知识图谱与AI的融合(2020年后):
知识增强的AI: 知识图谱与人工智能、机器学习的结合越来越深入。知识图谱被用于丰富机器学习模型的输入,帮助模型更好地理解语境和关系。
这里作者是通过一张图进行展示,并对未来国内对于此行业进行了一定的展望。
🥦1.2 知识图谱架构
🥦1.2.1 构建方法
从两个角度去看的话,可以分为自底向上和自顶向下
构建知识图谱可以从自底向上和自顶向下两个角度来考虑,这两种方法分别强调从细节逐步构建整体和从整体指导细节的方式。
自底向上(Bottom-Up)的构建方式:
-
数据收集与整理: 从各种数据源中收集结构化和非结构化的信息。这可能包括从文本中提取实体和关系,解析数据库中的数据等。
-
实体识别和关系抽取: 使用自然语言处理技术,从文本数据中识别实体和抽取实体之间的关系。这可以包括命名实体识别(NER)、关系抽取等任务。
-
数据清洗和预处理: 处理数据中的噪声、错误和不一致性,确保数据的质量。
-
知识表示和建模: 将数据表示成图结构,定义实体、属性和关系。这可能涉及到为不同实体设计模型和属性,以及识别关系类型。
-
关联实体: 在图中建立实体之间的连接,形成知识图谱的结构。这可能需要使用算法来推断或预测一些关联关系。
-
知识图谱的增量构建: 可能采用增量式的方式,逐步将新的信息添加到已有的知识图谱中。
自顶向下(Top-Down)的构建方式:
-
需求分析: 首先明确定义知识图谱的目标和应用场景,确定需要包含的实体、关系和属性。
-
知识建模和设计: 定义知识图谱的整体结构,包括实体的分类、属性的定义和关系的建模。这一步可以借助领域专家的知识进行设计。
-
数据获取和注入: 根据知识图谱的设计,获取符合设计要求的数据。这可能涉及到购买、合作获取、或者使用已有数据集。
-
数据清洗和转换: 对获取的数据进行清洗和预处理,以符合知识图谱的标准。
-
知识图谱的实际建立: 将清洗过的数据注入到知识图谱中,建立实体、属性和关系的具体关联。
-
知识图谱的优化和维护: 反馈知识图谱的实际应用情况,进行优化和调整,确保知识图谱的持续有效性。
作者总结到,自顶向下是指为知识图谱定义好本体模型,根据本体模式的约束,再将实体加入知识库。
自底向上是指从一些通用知识图谱中提取出实体,选择其中置信度较高的实体加入知识库,再构建顶层的本体模式。
注意:这里的本体库可以理解为面向对象中的“类”,作者这里形容的十分妙~
🥦1.2.2 逻辑架构
逻辑架构可以划分为两个层次:概念层和数据层
概念层的构建是在数据层之上的,这是知识图谱的核心,用来规定知识图片中包含哪些领域的知识、知识的类
别、每种类别知识的关系与属性。
如果从一个例子来展示的话,如下:
概念层:人物1-关系-人物2,人物-属性-属性值
数据层:李娜-丈夫-姜山,李娜-冠军-法网
我相信这样大家理解起来就会轻松许多了吧
🥦1.2.3 技术架构
本小节内容较多,不进行一一描述,大家可以通过上图进行大概理解知识图谱的整个构建过程。
- 点赞
- 收藏
- 关注作者
评论(0)