数据样本少?数据不出局?联邦学习专治各种不服!
业内认为,当前的人工智能成果大都是“狭隘”的,即面向特定任务,只能解决特定问题,比如深度学习在围棋比赛、图像识别等领域的应用已经不逊于人类。
而未来,人工智能的发展必将从“狭隘”的弱人工智能走向更具通用性的通用人工智能,但当前的人工智能技术距离达到人类水平的通用人工智能还有很长的路要走。
2017年10月16日,UC Berkeley电气工程与计算机科学系(EECS)14位专家联合发布了一份名为《A Berkeley View of Systems Challenges for AI》的报告。该报告明确提出,下一代人工智能系统的问题需要通过体系结构、软件和算法的协同创新来实现,面临的四大趋势和九大挑战,都需要一步步去解决。
在保密数据上实现共享学习(Shared learning on confidential data)便是九大研究方向之一。而联邦学习的概念,也首次被Google提出,成为了该方向在当前业界最热门的解决方案之一。
数据孤岛、数据隐私、标注数据少成为AI主要屏障
1. 数据孤岛,数据整合几乎不可能:由于行业竞争、隐私安全等问题,机构之间数据共享很难,同一公司内数据整合也困难。如在产品推荐服务中,销售方拥有产品数据,但没有用户购买能力和支付习惯数据。
AI需要一个机器学习框架,让人工智能高效、满足隐私保护的使用不同用户的数据?联邦学习(Federated Learning)应运而生,旨在将“人工智能的重点转移到以保障安全隐私的大数据架构为中心的算法导向上”,实现如下能力:
根据数据分布的场景,联邦学习可以分为:横向联邦学习,纵向联邦学习以及联邦迁移学习。
1. 横向联邦学习:训练的数据特征相同,分布在不同地方的数据是属于不同用户的,属于样本数量的扩展,适用于同领域的样本量联合建模。
2. 纵向联邦学习:训练的数据特征不同,分布在不同地方的数据是属于相同用户的,属于样本特征的扩展,适用于不同领域的样本特征联合建模。
3. 联邦迁移学习:训练的数据特征不同,分布在不同地方的数据也是属于不同用户的,属于模型的迁移,适用于不同领域在隐私保护下的模型迁移。
针对通信领域数据不允许出局的业务诉求,华为网络人工智能产品部在2019年启动联邦学习的研究与开发。华为网络人工智能联邦学习的基础架构主要分为服务器端和客户端,基于此基础架构,NAIE在通信领域的不同场景分别实现了横向联邦学习、纵向联邦学习、联邦迁移学习。
经过这几年网络人工智能团队的深耕及在通信领域的实践,网络人工智能联邦学习提供四大关键特性给客户:
1. 联邦学习全生命周期的管理:提供联邦学习在开发态的一键式开发工具链,以及运行态的图形化运维工具,通过友好易用的客户界面,极大提升客户开发与运行的效率。
2. 全场景的联邦学习支持及灵活的部署模式:区别于业界联邦学习复杂的功能区分,网络人工智能联邦学习通过服务端(Federated Learning Server)+客户端(Federated Learning Client)这种简洁的功能区分,实现了全场景的联邦学习,灵活的部署在通信领域的不同联邦学习场景。
3. 高性能及多样的算法支撑:支持神经网络、深度神经网络、线性、逻辑回归、决策树、随机森林、Xgboost、GBDT、lightGBM等算法;支持联邦训练的分布式计算能力,性能倍增;支持联邦训练的AutoML能力,极大提升客户在联邦模型的训练易用性。
4. 强大的安全隐私算法:支持华为自研的多种隐私加密算法:安全多方计算(Federated-MPC),随机安全平均(Random Secure Averaging)算法,同态加密(Paillier)、匿踪查询(OT)等,提供匹配应用场景的隐私加密算法;密文推理保证推理过程隐私。
结合华为在通信领域、人工智能领域的多年经验沉淀和研发投入,NAIE联邦学习主要服务于通信领域的联邦学习场景,分布在如下多个场景成功实现了联邦学习的应用:
ONT精准识别应用,实现品质家宽
1. 背景需求
运营商A向家庭用户推出电竞场景ONT(optical network terminal,光网络终端)套餐,通过各家庭用户ONT上AI模型识别接入网络的应用,保证对应应用的带宽。但因每个地区每个家庭用户接入网络应用数据样本不同,且不断有新应用数据产生,模型劣化、泛化能力弱,应用识别准确率低。同时,各地海量ONT上应用识别涉及家庭用户个人数据,无法将数据集中训练,导致应用识别项目TTM时间长。
2. 技术方案
基于横向联邦学习架构,将各家庭用户ONT作为客户端接入Server,ONT上模型实时本地学习,海量ONT模型共享,实现ONT家庭应用识别的在线训练、ONT家庭应用精准识别,保证各签约应用在用户ONT终端的带宽稳定。
应用如下关键技术提升ONT模型泛化能力和应用识别准确率:
3. 前景价值
通过横向联邦学习,各海量ONT实时在线训练,模型共享,有效解决模型劣化、泛化能力弱等问题,提升品质家宽增值业务的TTM,快速展开电竞套餐销售。
运营商和银行共建信用分模型
1. 背景需求
2. 技术方案
基于纵向联邦学习架构,使用同态加密、RSA盲签名等安全计算技术,实现银行和运营商原数据不出域,仅通过交互加密的计算因子,完成联合建模和预测,保护数据和模型参数的安全。
3. 前景价值
数据中心PUE模型联邦迁移学习
1.背景需求
2.技术方案
3.前景价值
我们每个探索AI的工作者都有一个终极目标——通用人工智能(Artificial General Intelligence)。而在走向这个目标的路上,人工智能当前面临“数据孤岛”及隐私监管力度加大的巨大挑战,联邦学习的出现为人工智能的进一步发展提供了新的解决方案。通过联邦学习的架构方案设计及隐私保护技术应用,可使多个数据拥有方协同建立共享模型,达到模型训练与隐私保护双赢的目的。联邦学习在电信领域的应用将会加速人工智能技术的创新发展,催生以运营商为中心的跨领域生态合作。联邦学习在未来的网络自动驾驶、用户满意度提升、用户信用评估等领域将得到广泛使用。
本文首发于:【网络人工智能园地】公众号:数据样本少?数据不出局?联邦学习专治各种不服!
- 点赞
- 收藏
- 关注作者
评论(0)