DevRun Live第四场:直达AI前沿,“攻城狮”们,Let’s go!
最近天气回暖,好消息也越来越多,中国“战疫”不断收复失地,大家的生活也在渐渐恢复正常。对于爱学习的“攻城狮”们来说,还有一个好消息,那就是华为“DevRun Live”开发者沙龙在3月20日再次上线。
这次沙龙活动也有三场直播,三位来自华为的技术大咖和一位特邀的合作伙伴专家分别介绍了AI在网络故障数据分析中的应用,以及基于联邦学习的AI模型共建共享。既有高深的技术理论,也有生动的案例介绍,带着爱学习的同学们直达网络AI科技前沿。
1
揭秘网络AI领域
10大公开数据集应用及标准
此次沙龙的第一场演讲由华为云NAIE首席数据治理专家周尧主讲,他揭秘了网络AI领域10大公开数据集应用及标准,并介绍了如何获取十大公开数据集、获取后如何使用这些数据集。周尧还详细说明了数据治理过程中要尽量避免的一些问题,以及典型数据集开发模型的价值。
如今文本、图片、语音、视频等领域的AI数据集虽多,但具体到网络领域,却很少有高质量的数据集可用。这一方面与专业性和安全性有关,另一方面,网络数据也存在标准复杂、标注难度大等问题,数据治理成本较高。
首先,数据采集的来源可能包括网元、网管和其他管理系统等。比如网络故障场景就需要采集无线基站、承载接入、承载汇聚等领域多个设备的告警数据。这个过程非常繁琐,而且需要慎重处理好隐私防护、数据安全问题。
其次,采集到的数据后,需要进行数据清洗,解决数据缺损、谬误、格式不同等问题。不同场景下往往还会有特定的数据清洗操作。
然后,为便于后续的数据分析,原始数据还需要根据用途转换为相应的主题模型,比如时空数据模型、设备数据模型、故障数据模型等,可以作为电信网络的标准化数据用于深度挖掘。
接下来的流程是数据标注,即对整理后的数据样本添加一个标签,注明与该数据相关的重要信息。比如多个基站、传输节点出现连接中断告警,运维专家会判断可能是断电、光路故障或硬件故障,这些经验可以作为故障数据的一个重要标注。同时,通信设备的产品文档中也会给出内在的层次逻辑关系,据此可以提取一些告警关系,用于告警数据的标注。
华为从业务出发,经过数据采集、数据清洗、数据转换、数据标注、数据质量评估和数据集生成六个步骤,获得了涉及接入网、核心网、无线网、数据通信等多个领域的十大公开数据集。
2
打破数据孤岛,
联邦学习技术AI模型上开发实践
当前运营商网络及企业专网的相关网络数据无法上传到公有云,数据存储在各个分散的网络局点机房。面对“数据孤岛”难题,华为网络AI架构师江涛带来了自己的“杀手锏”,这就是如何确保数据在客户机房的情况下,使用联邦学习技术开发训练出模型。
带着口罩的江涛很有大师风范,讲演中随手拈来、挥洒自如,技术大咖的风度令人折服。通过这场沙龙,大家可以了解运营商网络及企业专网数据无法上云的原因,通信网络联邦学习的应用架构及关键组成,以及如何使用联邦学习进行模型开发和训练。
联邦学习(Federated Learning)是一种多用户共享的机器学习技术,可以在不共享本地数据的前提下,让参与的用户共建共享AI模型。这种技术的原理是各参与方在本地进行模型训练,然后将训练结果加密上传到云端,与其它参与方的训练结果汇聚形成一个公共模型,然后再将这个公共模型从云端下发给各参与方。
联邦学习优点在于可以在保护隐私的前提下,汇聚更多的数据资源用于机器学习。对于高度重视数据安全、隐私保护的电信行业来说,这一技术无疑极具实用价值。为此华为网络AI引擎推出了联邦学习服务,并已经被用于华为CloudMSE基于SA(Service awareness)技术的业务管理。
比如某国运营商禁止使用VoIP业务,但VoIP应用种类多、版本更新频繁,很多还是加密的,这就需要SA技术支持对VoIP软件的检测和控制。这种情况下,运营商可以引入联邦学习技术来迅速建立对VoIP应用的智能识别能力。此外,联邦学习还被华为用于识别不限流量套餐用户与他人共享,P2P、VoIP应用“恶意”占用大量网络资源等,使得运营商可以利用SA技术控制网络流量的异常增加。
为避开SA技术的流量检测和控制,很多VPN和VoIP服务采用了DomainFronting技术,大大增加了流量识别的难度。不过华为联邦学习平台解决了数据流量有安全防护情况下的分布式训练问题,大大提升了流量识别的准确率。
目前华为联邦学习服务内置有联邦汇聚、梯度分叉、多方计算、压缩算法等能力,这些算法可以通过共同训练获得优于单独训练的效果。用户只需要从华为NAIE的联邦学习平台上下载一个客户端,就可以加入联邦学习实例,并能够查看可视化训练状态,共享训练的成果。
现实中很多应用场景都可以轻松改造成华为联邦学习平台模式,借助其隐私保护和分布式训练的能力,大大加快AI模型的训练速度。
3
跨域网络故障根
因告警识别效率提升达40%的秘密
近年来,网络性能越来越强、功能越来越多,但随之而来的是网络结构越来越复杂,运维越来越困难,而智能运维技术被认为是面向未来的解决之道。在第三场演讲直播中,来自华为的AI算法专家刘天赐就分享了“跨域网络故障根因告警识别效率提升达40%的秘密”。这次演讲还邀请到了来自重庆环联科技的大数据专家唐旭,介绍了与华为合作开发网络故障识别方案的成果和经验。
华为AI算法专家刘天赐
从华为的实践经验来看,运用知识图谱、机器学习等AI技术,结合网络拓扑对告警数据进行分析、快速聚合,从而实现对故障的快速定位和精准识别。据测算,跨域网络故障根因告警识别效率可以因此提升40%,整体运维效率可以因此提升约30%。
开发者们从中不仅可以了解到跨域复杂网络故障定位的难点、典型网络故障的特征及业务问题以及如何应用网络拓扑、告警数据和知识图谱等AI技术结合开发出故障识别模型。
重庆环联科技大数据专家唐旭
在3月13日举行的第三期沙龙活动中,华为云自然语言处理技术专家郑毅曾介绍过知识图谱的构建流程及方法。现在的问题是,知识图谱既然可以让AI可以像人一样理解世界,那么能不能让AI像网络专家一样理解网络,解决复杂网络的智能运维问题呢?华为在这一领域做了很多探索。
首先要明确一点,通信网络知识图谱与一般知识图谱有很大的差异。比如在内容上,前者更注重知识深度和完备性,在交互方式上更关注面向问题的目标导向性问答,而后者则更像是开放式的聊天问答。归根结底,人们需要AI像网络运维专家那样,可以透过故障表象推测出可能存在于多个环节的问题根源。更进一步,人们需要AI能实现高度智能化的网络自动驾驶,大大减轻运维人员的值守压力和应急任务量。
目前华为已经建立起了一套网络运维知识图谱的方法论和标准规范,大致上可以划分成知识来源、知识建模、知识存储、知识抽取、知识表示和知识融合几个方面。
从知识来源来看,网络运维知识蕴藏在告警信息、数据采集以及配置、日志等文档中,也蕴藏在使用手册、故障案例、交流论坛以及专家的脑海中。要将这一切融入知识图谱,就需要配备相应的信息抓取工具,并能够从这些来源不同、结构不同的数据源中获取知识语料。
提取到知识语料之后,要从中提取到有价值的知识,必须事先设计知识模型,建立知识图谱的数据模式(schema)。在具体操作时,可以采用自上而下的方法,由专家利用建模工具来手工编辑schema;也可以采用自下而上的方法,根据源数据的结构、语料的规范标准等,将数据中蕴含的信息以知识图谱的形式表达出来。以故障传播知识图谱为例,不但需要涵盖故障位置、故障表现、故障表现间的传递和依赖关系等等,还需要补齐语义知识。比如应该把“NE”自动等同于“网元”,把“Pod起不来”这样的语句自动识别为一种故障现象。
网络故障知识的存储需要数据库,这种数据库不仅要具备图查询、图计算功能,也需要有语义关联库、支持故障问答的符号化知识等。因此需要在图数据库的基础上开发一些特定功能。
知识抽取是一个比较复杂的问题,因为知识往往蕴含在不同来源、不同格式的数据和文档中,从中提取、识别知识都需要开发相应的技术和工具。要知道,仅文本信息的识别、信息提取就是一个非常复杂的科学问题。
知识表示和知识融合是产生知识图谱的关键环节。抽取到的知识往往是缺乏关联的,要形成完善的知识图谱,还需要利用多种算法来发现各个实体间的关系,包括各种故障特征之间的传导关系等。
- 点赞
- 收藏
- 关注作者
评论(0)