通信领域数据治理漫谈
人类文明的进化和发展的背后伴随着人类对数据处理能力的变化和增强。
每一个璀璨文明背后都体现了人类对现实物理世界的数字化理解。从古文明中对数据的获取和利用,如中国农业中的二十四气节、埃及文明中金字塔、希腊文明中美轮美奂的雕塑和建筑,到欧洲文艺复兴科技的进步;再到近代工业革命的发展。整个人类进步的一个最明显特征就是数据量的变化。
据统计,现在《纽约时报》一周的信息量比18世纪一个人一生所收到的资讯量更大,现在18个月产生的信息比过去5000年的总和更多。国际数据公司(IDC)和数据存储公司希捷开展的一项研究发现,中国每年将以超过全球平均值3%的速度产生并复制数据。该研究报告称,2018年中国产生约7.6ZB(1ZB约相当于1万亿GB)的数据,到2025年该数字将增至48.6ZB。与此同时,美国2018年约产生6.9ZB数据,并将在2025年增至30.6ZB。
“数据是这个数字世界的核心,我们正越来越成为一个信息经济社会。”IDC分析师在该报告中写道。随着数据量的剧增,数据格式的多样化,对数据处理的能力和要求也越来越高。而在通通信领域,随着5G时代的到来,超密度网络集成和大数据洞察需求给运营商带来了新的挑战。新的网络中设备智能化能力不断增强,设备密度和交互更加频繁,如何高效获取数据,如何快速运用海量的数据支撑业务,支撑网络的自治是整个运营商数据架构需要解决的基础问题。
以流量预测场景为例:需要用到海量的实时业务数据,如MR、话统等,以及对应的工参数据。同时,为了提高预测的精准度,还引入大量的社会信息,如天气信息、人车流动态信息、公共信息等帮助分析流量的趋势。这些数据格式多样,有结构化数据如MR、工参数据、天气信息;有半结构化数据如公共信息、人车流动态信息等。数据治理方,需要对于各式的数据具备特定的解析能力,并能保证数据中信息获取的准确性,如爬取的互联网数据解析问题。除了数据格式的多样性,如何在海量数据中,实时完成数据归一和质量修复,提高推理预测的准确性,都是数据治理方需要解决的问题。
华为针对通信业务数据治理,推出NAIE 数据湖解决方案,将数据架构从传统的数据仓库升级为数据湖,并基于华为公司对于通信网络的经验和理解,构建了通信网络数据的Schema,解决数据湖被人诟病的“数据沼泽”问题,让数据进得来,出得去,清楚明白的被使用。以华为云为基础,围绕通信业务的场景,打造了一系列数据湖服务,如数据资产管理服务、数据集服务和数字网络洞察服务,帮助运营商快速构建高效有价值的数据湖。
数据资产管理 | 提供完整的数据湖管理工具链,将通信领域原始数据加工为训练数据集,提供数据采集、数据解析、数据建模、数据集成、数据标注、数据发布等工具服务,帮助用户提升数据处理效率,安全轻松管理数据湖中的数据资产,并让上层业务快速发现数据湖中有价值的数据。 |
数据集服务 | 持续汇聚公司内通信领域合规数据资产和解决方案实验室构造样本,经过专业治理和标注后,为各业务团队提供覆盖设备网元、网络状态、网络拓扑、用户体验、GIS地图、外部人流车流、施工信息及重大事件等全域高质量数据集的浏览、查询和订阅服务,支撑用户在AI领域快速创新。 |
数字网络洞察服务 | 基于全域数据的沉淀,构建云端分层、跨域的数字网络地图,提供时空底图、物理网络、逻辑网络、业务网络、用户体验的数据整合(感知、认知)能力,对外发布站点分布,人流车流,工程施工、网络覆盖,用户体验,流量热点等数据的基础分析服务能力,探索数据洞察分析类价值变现方式。 |
华为NAIE(原SoftCOM AI)数据湖方案在具备数据资产管理基础能力的同时,结合华为云和NAIE在通信网络、人工智能方面的能力,重点在两个方面进行深度优化:
为了网络自动驾驶的及时性,高效性和精准性,如何让跨域数据以一种低成本统一的方式被相关业务场景快速方便的消费是重要的能力。消费场景包含:业务创新(AI模型开发)、业务商用(实时推理)、业务维护(效果反馈/再训练)。
结合华为云上提供的存储服务,提供异构存储数据统一查询的能力。通过简单的SQL处理界面,即可实现异构存储上数据的联合分析探索能力,解决异构存储数据孤岛问题,相比传统数据存储归一方案,在成本、开发效率上都有极大提高。
针对标准数据管理生命周期流程,NAIE数据湖以“人在流程外”的理念对整个数据湖的管理流程进行重构和优化,数据拥有者只要提供基本的数据元数据定义和数据,即可基于NAIE提供的通信领域网络的统一模型和预置的智能化处理流程,实现从数据到资产的全程自动化处理能力。
同时围绕着DAMA规范中的要求,在数据安全,数据管理,数据操作等维度,引入AI能力,实现数据湖的实时管理能力,杜绝“数据污水”流入湖内,保护数据资产安全使用,让数据湖时刻处在一个健康的状态。
当通信数据源源不断的往湖中注入后,NAIE数据湖解决方案是如何让数据快速转换为通信领域的数据资产的呢?
1、 如何用简便智能的方式治理数据湖中数据
2、 如何提高数据质量,支撑AI训练
3、 如何让华为在通信领域几十年的知识经验支撑网络自动驾驶
围绕以上三个问题,NAIE数据湖解决方案将给出详细解答。具体内容将在人工智能园地公众号发布,敬请关注。
- 点赞
- 收藏
- 关注作者
评论(0)