电信网络领域知识图谱的初步实践和畅想
近年,随着硬件计算能力的稳步提升,极大的满足了机器对大规模样本数据处理的要求,以大规模和复杂的神经网络模型为代表的深度学习迎来了发展的春天,深度学习成为了催热这波机器学习乃至人工智能热潮的始作俑者。
随着机器学习的发展和研究的深入,这波热潮所使用的方法或者手段来提升人工智能水平的加速度逐渐减弱,都在往一个所谓的“天花板”方向上逐步接近,有一种强弩之末的趋势。当前机器学习使用的方法主要是使用样本数据在算法的基础上来训练模型,机器学习的效果取决于模型的效果,模型的效果又需要多样性的数据来喂养。理论上,样本数据的规模越大,多样性分布越广,模型的效果越好,机器学习的效果越好。特别是深度学习使用的神经网络模型,随着层次越来越深,要想获取理想的效果模型,对数据的规模和质量要求会越来越高。高质量有效的数据积累需要一个过程,当前的存量数据的训练效果很快就会达到一个“天花板”,在这种情况下,该如何提升模型的效果和质量?对于这个问题,学术界和工业界进行了大量的前瞻性的研究和讨论,基于知识图谱的知识引导就是其中一个研究的方向。
数据驱动的人工智能效果主要依赖数据和算法,在这个过程中,人类积累的大量专业经验,特别是事物之间的直接的关联关系没有充分利用。尽管,算法也能代表一些专家经验,但是算法的抽象提炼也是一个复杂的门槛较高的过程,况且算法表达客观世界的能力是有限的,当前已有的抽象出来的数学算法无法充分表达人类积累的大量知识经验,以及事物之间复杂的关联关系。在这种场景下,通过人类积累的经验知识直观的去引导制定确定的推理规则来代替不确定的算法模型拟合,可能是更好的一种选择。
知识图谱就是让机器识别人类经验知识的一种很好的表达方法,通过schema建立数据关系模型来表达客观世界,让机器认识世界,通过在关系模型上建立推理规则来表达人类积累的专业经验,让机器去改造世界。
另一方面,随着场景域的积累,人类的经验知识通过知识图谱固化下来,知识图谱的规模会越来越大,存储的事物之间的关联关系规模会越来越大,机器具备的背景知识会越来越多。在人与机器的交互过程中,对机器的输入主要是自然语言,自然语言的识别是有很多歧义的,还有一些表达有缺失,这就需要关联上下文才能做出二义性选择或者补全。知识图谱主要是存储对象以及对象之间的关联关系,在理解用户意图的场景上能发挥关键作用,在人工智能中理解用户意图是非常关键的一个能力,在知识图谱建立的大规模背景知识库的情况下,通过对象之间的关联关系来识别人的输入或者是别的机器的输入的能力会越来越强,机器认知世界的能力就会更强,进而可以更好的去改造世界,这不就是人类追求的人工智能的终极目标吗?
华为NAIE(原SoftCOM AI)是华为在电信网络领域进行人工智能应用研究的团队,早在2018年10月份就启动了知识图谱的技术洞察,在11月份正式启动了知识图谱的原型机项目,对知识图谱在电信网络领域的应用进行探索研究。
知识图谱原型机项目就是用来探索知识图谱的能力边界,结合到核心网的痛点问题,在问题分析阶段选取核心网移动软交换的信令链路M3UA的故障定位课题进行探索。
以M3UA链路为基础的Schema定义,呈现对象之间的关系如下图所示:
蓝色圆球是本体概念,代表一类实体(实例),根据现网返回的日志结合本体自身的特点来定义本体的属性,如下图所示,xx属性定义表示可以进行属性扩充。
通过schema概念层表达成的推理规则,机器根据规则去遍历实例来匹配关系,将匹配上的关系写入到数据库固化下来,后续可以查询使用。
如下图所示是Cxxxxx-0链路和Nxxxxx-0链路的关联关系:
专家可以根据自身的经验,在此知识图谱基础上编辑产生很多推理规则,机器部署在客户现场采集数据,推理规则作用到采集的数据上,在客户现场给出推理结果,辅助客户现场人员诊断故障。
从目前有限的探索来看,知识图谱在故障定位的过程中对研发人员起到了两个作用:
1、 信息横向整合,方便可视:把现场采集的各类日志文件,按照实体对象的维度重新进行了组织编排,方便可视。在排查故障的时候,研发人员可以直观的看到某个M3LNK的实例对象上发生的一些事件(告警、操作)以及有与之有关系的实例对象发生的事件,日志文件可视化后,大幅减少研发人员分析日志的时间。
2、 专家经验固化,利于传承重复使用:有了知识图谱的schema定义和知识库实例数据,让专家经验可以很方便的编辑成推理规则固化下来,重复在各个现网局点使用。
在这个过程中,形成了两个对客户比较有力的价值点:
1、 某个领域的知识图谱schema模型设计,这个里面定义了实体之间的关系,是现网采集的数据重新组织存储到知识图谱的关键,没有这个模型, 客户现场采集的日志数据只能是文件形式孤立的存储。
2、 专家经验转化成的推理规则,他是知识图谱里面数据的驱动,没有推理规则,数据只能静静的躺在数据库里面,无法对故障定位产生价值。
知识图谱里面存储的主要是知识,在电信领域里面,这个知识可以定义成领域schema和专家经验,知识价值变现的过程需要打造一套系统来实现,这套系统可以分为知识生产和知识消费两部分。
知识生产系统可以部署在云端,在起始阶段,专业知识需要各个领域的专家以众筹的方式登录到云端编辑领域知识图谱schema和推理规则(专家经验)。
知识消费系统客户端需要部署到客户现场,先从云端下载对应产品的知识图谱schema和推理规则,然后对接现网设备采集日志(设备配置、设备告警、操作日志、话统KPI等)数据,根据下载的schema模型重新组织存储数据,应用推理规则进行故障诊断,给出处理建议。
系统部署好以后,在知识生产阶段,华为各领域专家在定位现网问题的过程中,编辑领域schema和推理规则存储在系统中,待现网验证后,推送到华为云对应的服务中,后续客户根据服务目录下载。知识生产系统部署在华为云上,主要功能如下:
客户现场部署系统客户端工具,客户根据需要下载某产品或者某领域的schema和推理规则,对接现网设备进行数据采集(信息安全,数据不上传到云端),结合推理规则在客户现场进行故障诊断,客户端部署在客户现场,主要功能如下:
客户通过云服务的形式来订购schema模型服务和推理规则服务,系统通过实时结算系统给贡献schema模型和推理规则的专家分成,来吸引各领域专家在云端系统里面编辑各自领域的schema模型和专家经验,构建生态链,将专家知识实时变现。
待系统逐渐成熟后,可以将知识生产系统开发给业界专家,让他们在华为知识生产系统里面贡献自己的经验,实现专家经验变现,生态链构建好之后,华为的知识生产系统逐渐演变成知识交易的平台,电信业的相关方在这个平台对知识进行交易,知识的生产方是电信领域的专家,知识的消费方是电信运营商客户、运营商设备第三方代维,其他电信厂商以及业界专家。
随着时间的积累,NAIE的这套系统逐步沉淀了覆盖电信各领域的schema和专家经验,这时可以把这些知识打包作为电信领域背景知识服务提供给人工智能机器,从此电信领域的人工智能逐步摆脱数据驱动的模式,转变成以电信背景知识引导的模式,切换到快速发展的通道。
参考文献:
1、 肖仰华教授在三星电子中国研究院做的报告《Understanding users with knowldge graphs》
2、 图数据库(第2版) 伊恩·罗宾逊 (作者), 吉姆·韦伯 (作者), 埃米尔·艾弗雷姆 (作者), 刘璐 (译者), 梁越 (译者)
3、 中科天玑大数据 最全知识图谱的概念篇
4、 人工智能之知识图谱 GitChat的博客
5、 人工智能学家 人脸识别最全知识图谱—清华大学出品
- 点赞
- 收藏
- 关注作者
评论(0)