数据样本少?数据不出局?联邦学习专治各种不服!

iMaster NAIE官方 发表于 2021/08/28 11:26:46 2021/08/28
【摘要】 业内认为,当前的人工智能成果大都是“狭隘”的,即面向特定任务,只能解决特定问题,比如深度学习在围棋比赛、图像识别等领域的应用已经不逊于人类。而未来,人工智能的发展必将从“狭隘”的弱人工智能走向更具通用性的通用人工智能,但当前的人工智能技术距离达到人类水平的通用人工智能还有很长的路要走。2017年10月16日,UC Berkeley电气工程与计算机科学系(EECS)14位专家联合发布了一份名为...

标题.jpg

业内认为,当前的人工智能成果大都是“狭隘”的,即面向特定任务,只能解决特定问题,比如深度学习在围棋比赛、图像识别等领域的应用已经不逊于人类。

摄图网_500565336_wx_人工智能与棋盘(企业商用).jpg

而未来,人工智能的发展必将从“狭隘”的弱人工智能走向更具通用性的通用人工智能,但当前的人工智能技术距离达到人类水平的通用人工智能还有很长的路要走。

2017年10月16日,UC Berkeley电气工程与计算机科学系(EECS)14位专家联合发布了一份名为《A Berkeley View of Systems Challenges for AI》的报告。该报告明确提出,下一代人工智能系统的问题需要通过体系结构、软件和算法的协同创新来实现,面临的四大趋势和九大挑战,都需要一步步去解决。

1.png

保密数据上实现共享学习(Shared learning on confidential data)便是九大研究方向之一。而联邦学习的概念,也首次被Google提出,成为了该方向在当前业界最热门的解决方案之一。

标题2.jpg

联邦学习是一种机器学习技术,具体来说就是人们在多个拥有本地数据样本的分散式边缘设备或服务器上训练算法。这种方法与传统的集中式机器学习技术有显著不同,传统的集中式机器学习技术将所有的本地数据集上传到一个服务器上,而更经典的分散式方法则通常假设本地数据样本都是相同分布的。联邦学习使多个参与者能够在不共享数据的情况下建立一个共同的、强大的机器学习模型,从而可以解决数据隐私、数据安全、数据访问权限和异构数据访问等关键问题。

标题3.jpg

数据孤岛、数据隐私、标注数据少成为AI主要屏障

图_画板 1 副本 2.jpg

1. 数据孤岛,数据整合几乎不可能由于行业竞争、隐私安全等问题,机构之间数据共享很难,同一公司内数据整合也困难。如在产品推荐服务中,销售方拥有产品数据,但没有用户购买能力和支付习惯数据。

2. 数据隐私、安全已是世界性趋势:欧盟《通用数据保护条例》GDPR,全面禁止用户数据离开欧盟,2018 年Q2,谷歌和Facebook等成为 GDPR法案第一批被告。

3. 数据少,高质量的标注数据更少:以IBM Watson为例,医疗数据在第三方公司标注,需要1万人用长10年的时间才能收集到有效的数据。

摄图网_500771742_banner_人工智能科技大脑(企业商用).jpg

AI需要一个机器学习框架,让人工智能高效、满足隐私保护的使用不同用户的数据?联邦学习(Federated Learning)应运而生,旨在将“人工智能的重点转移到以保障安全隐私的大数据架构为中心的算法导向上”,实现如下能力:

图_画板 1 副本 3.jpg

标题4.jpg

根据数据分布的场景,联邦学习可以分为:横向联邦学习,纵向联邦学习以及联邦迁移学习。

图_画板 1 副本.jpg

1. 横向联邦学习:训练的数据特征相同,分布在不同地方的数据是属于不同用户的,属于样本数量的扩展,适用于同领域的样本量联合建模。

2. 纵向联邦学习:训练的数据特征不同,分布在不同地方的数据是属于相同用户的,属于样本特征的扩展,适用于不同领域的样本特征联合建模。

3. 联邦迁移学习:训练的数据特征不同,分布在不同地方的数据也是属于不同用户的,属于模型的迁移,适用于不同领域在隐私保护下的模型迁移。

标题5.jpg

针对通信领域数据不允许出局的业务诉求,华为网络人工智能产品部在2019年启动联邦学习的研究与开发。华为网络人工智能联邦学习的基础架构主要分为服务器端和客户端,基于此基础架构,NAIE在通信领域的不同场景分别实现了横向联邦学习、纵向联邦学习、联邦迁移学习。

4.jpg

经过这几年网络人工智能团队的深耕及在通信领域的实践,网络人工智能联邦学习提供四大关键特性给客户:


1. 联邦学习全生命周期的管理:提供联邦学习在开发态的一键式开发工具链,以及运行态的图形化运维工具,通过友好易用的客户界面,极大提升客户开发与运行的效率。

2. 全场景的联邦学习支持及灵活的部署模式:区别于业界联邦学习复杂的功能区分,网络人工智能联邦学习通过服务端(Federated Learning Server)+客户端(Federated Learning Client)这种简洁的功能区分,实现了全场景的联邦学习,灵活的部署在通信领域的不同联邦学习场景。

3. 高性能及多样的算法支撑:支持神经网络、深度神经网络、线性、逻辑回归、决策树、随机森林、Xgboost、GBDT、lightGBM等算法;支持联邦训练的分布式计算能力,性能倍增;支持联邦训练的AutoML能力,极大提升客户在联邦模型的训练易用性。

4. 强大的安全隐私算法:支持华为自研的多种隐私加密算法:安全多方计算(Federated-MPC),随机安全平均(Random Secure Averaging)算法,同态加密(Paillier)、匿踪查询(OT)等,提供匹配应用场景的隐私加密算法;密文推理保证推理过程隐私。

标题6.jpg

结合华为在通信领域、人工智能领域的多年经验沉淀和研发投入,NAIE联邦学习主要服务于通信领域的联邦学习场景,分布在如下多个场景成功实现了联邦学习的应用:

场景一:

ONT精准识别应用,实现品质家宽

摄图网_500609861_banner_智能家居科技时代(企业商用).jpg

1. 背景需求

运营商A向家庭用户推出电竞场景ONT(optical network terminal,光网络终端)套餐,通过各家庭用户ONT上AI模型识别接入网络的应用,保证对应应用的带宽。但因每个地区每个家庭用户接入网络应用数据样本不同,且不断有新应用数据产生,模型劣化、泛化能力弱,应用识别准确率低。同时,各地海量ONT上应用识别涉及家庭用户个人数据,无法将数据集中训练,导致应用识别项目TTM时间长。

2. 技术方案

基于横向联邦学习架构,将各家庭用户ONT作为客户端接入Server,ONT上模型实时本地学习,海量ONT模型共享,实现ONT家庭应用识别的在线训练、ONT家庭应用精准识别,保证各签约应用在用户ONT终端的带宽稳定。

应用如下关键技术提升ONT模型泛化能力和应用识别准确率:

(1)差分隐私、多方安全计算:海量ONT模型共享,保障ONT和Server间通信隐私安全。
(2)自适应聚合、EWC持续学习、变频变步:解决各ONT数据样本不同、不断有新应用数据产生造成模型劣化问题。
(3)参数冻结、节点调度:解决海量ONT共同参与联邦通信效率。

3. 前景价值

通过横向联邦学习,各海量ONT实时在线训练,模型共享,有效解决模型劣化、泛化能力弱等问题,提升品质家宽增值业务的TTM,快速展开电竞套餐销售。


场景二:

运营商和银行共建信用分模型

摄图网_401071942_banner_金币保险库(企业商用).jpg

1. 背景需求

银行在构建信用分模型时,需要对用户信用评估,为了更精准、更全面的刻画用户信用情况,银行和运营商联合共建风控模型。银行和运营商都涉及用户个人隐私数据,数据不能出局,不能集中数据训练模型。

2. 技术方案

基于纵向联邦学习架构,使用同态加密、RSA盲签名等安全计算技术,实现银行和运营商原数据不出域,仅通过交互加密的计算因子,完成联合建模和预测,保护数据和模型参数的安全。

2.png

3. 前景价值

识别个人和企业背后的复杂关系链条及欺诈风险,为客户融资鉴权、增信提供准确判断,每年阻止数亿资金的风险贷款申请。



场景三:

数据中心PUE模型联邦迁移学习

摄图网_304635896_以白色反射背景隔离的数据中心网络服务器行(企业商用).jpg

1.背景需求

某数据中心利用AI模型自动调节冷却塔、冷却泵控制能源利用效率PUE(power usage effectiveness。

该数据中心一期运行时间较长,有大量数据特征和标签,训练的AI模型精度高,PUE控制好。现新建二期数据中心,需要至少积累3个月的采集数据(采集周期不大于5分钟),才能训练出一个效果比较好的模型。如果等待3个月之后才能实施PUE节能,可能错过夏季最佳PUE节能季节。

在3个月内,二期数据特征较少,只有极少量的标签,直接使用二期数据训练的模型效果很差。因暖通工艺存在差异,二期特征相比一期有部分不同,直接使用一期模型在二期数据上进行评估,精度仅有20%。

2.技术方案

一期存在大量有标签的数据,二期只有极少量有标签数据,数据极不均衡,但一期和二期存在部分重叠特征。

将一期作为源域,二期作为目标域,在目标域只有少量标签数据的情况下,使用迁移学习将源域的模型迁移应用到目标领域,且精度不下降。

具体迁移方案步骤:
(1)特征迁移:从源域和目标域特征中选取相同含义的特征,数据特征对齐后可以解决源域和目标域模型输入不一致的情况,降低模型迁移难度。
(2)样本迁移:以目标域小样本数据为基准,清洗源域样本。
(3)模型迁移:基于已有的源域模型优化神经网络结构,加入域自适应层和目标域输出层。

3.png

(4)执行迁移学习训练:导入源域模型参数,按照迁移学习神经网络结构训练,输出目标域模型。迁移学习训练输出的目标域模型精度可达90%。

3.前景价值

使用迁移学习能快速从PUE源域模型训练出目标域模型,解决目标域数据量少,标签少无法快速训练高精度模型问题,助力新建数据中心PUE模型快速商用,降低能耗。

标题7.jpg

我们每个探索AI的工作者都有一个终极目标——通用人工智能(Artificial General Intelligence)。而在走向这个目标的路上,人工智能当前面临“数据孤岛”及隐私监管力度加大的巨大挑战,联邦学习的出现为人工智能的进一步发展提供了新的解决方案。通过联邦学习的架构方案设计及隐私保护技术应用,可使多个数据拥有方协同建立共享模型,达到模型训练与隐私保护双赢的目的。联邦学习在电信领域的应用将会加速人工智能技术的创新发展,催生以运营商为中心的跨领域生态合作。联邦学习在未来的网络自动驾驶、用户满意度提升、用户信用评估等领域将得到广泛使用。

本文首发于:【网络人工智能园地】公众号:数据样本少?数据不出局?联邦学习专治各种不服!

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。