联邦学习落地金控公司的挑战与思考

举报
码上开花_Lancer 发表于 2023/01/28 18:15:02 2023/01/28
【摘要】 今天将结合联邦学习落地“临门一脚”的问题,以及业务上的一些思考和技术方案,跟大家做一些交流。主要内容包括:• 首先是监管背景,简要介绍现在的监管态势。• 然后是针对法规上的严格监管,我们采用了哪些技术手段来缓解相关问题。• 接着是关于业务专家的激励问题,不论明文共享还是联邦共享,能落地的必定是有业务价值的,要给参与推动共享的组织带来效益,给业务人员以激励。• 最后是技术上“最后一公里”的问题...

今天将结合联邦学习落地“临门一脚”的问题,以及业务上的一些思考和技术方案,跟大家做一些交流。
主要内容包括:
• 首先是监管背景,简要介绍现在的监管态势。

• 然后是针对法规上的严格监管,我们采用了哪些技术手段来缓解相关
问题。


• 接着是关于业务专家的激励问题,不论明文共享还是联邦共享,能落
地的必定是有业务价值的,要给参与推动共享的组织带来效益,给业
务人员以激励。

• 最后是技术上“最后一公里”的问题,我们也在研究联邦的一些内核
的技术,去年也做了一部分算法的革新,但是站在金控集团的角度考
虑,我们希望能够在近期内有一些效益出现,所以我后面会做一个小
的演示,将技术上的一些难点向大家做一个介绍。

01监管合规对金控数据共享提出新要求

  加强个人信息,尤其是金融信息的保护,保障数据安全成为必然趋势


合规对数据共享提出了新的要求,尤其是今年人行出台了两个法规,对个人信息进行保护。

2020年出台的规范是最多的,包括个人金融信息保护试行办法,个人金融信息保护技术规范,金融消费权益保护实施办法等等。大家看一下知道监管的态势,尤其是,除了个人信息方面,其他类型信息保护其实是多头治理的,国家秘密、商业秘密、公司治理、反垄断,都有相应的法律出台,网信办在这方面也很有权威。

金控公司面临监管背景


最后也给大家贡献一个案例。原来大家都有一定的侥幸心理,但实际上在证监会执法时候是非常严格的,即便是加密的信息做了共享,还是会被证
监会处罚,这件事情当时对我们的触动也比较大。这个案例是基于证监会《证券基金机构信息技术管理办法》(证监会令第152号)第34条,一家证券公司受到处罚。当时是银证之间的合作,还是用了透明信息,也是被处罚了。所以从宏观上看,政策趋严。



总结一下,在法律法规上,目前尚无明确的法规确定联邦学习方式可以用于客户隐私数据共享。但从当前强监管的态势来看,其实联邦学习或者是
多方安全计算已经是一个必然,想要再用原来的方法来做数据的共享几乎是不可能的,所以从法规上来看,联邦学习是必由之路。


02做到完全合规


提出带审计功能的联邦学习,为证券基金经营机构的数据合规提供过渡解决方案

首先我们来看怎么做到完全合规,尤其是证券基金机构。为了让联邦学习落地,我们提出了一个“加强联邦学习的审计”的要求。其实这跟联邦学习的内核并没有太大关系,我们对联邦学习的建模、算子、pipeline,其实没有做任何改造,只是在联邦学习的“最后一公里”之后,给业务机构提供一个基于区块链或是其他系统的不可篡改的证据,方便让机构的从业人员在做了联邦学习的数据联合以后,还能够有一些材料和资料来提供给审计方,做法律上一些储备。

举一个最简单的PSI的例子,联邦学习RSA算法将用户数据进行hash后,利用公钥对用户三要素哈希值和手机号进行加密,按需对加密数据进行统计计算,实现了152号令第34条“原始数据不出证券基金经营机构”的要求,并增加了审计环节——所有的数据提取都要留证,之后再传给需求部门。


说起来这其实算是一个工程上的小改进,主要是为了做到完全合规,可以称之为过渡方案。

基于现在的技术手段,我们能实现三种方案:客户的总量模型,可以做一些客户的总量评分;PSI类客户模型,即多家机构之间客户协同的指标,还有区域客户模型,能够输出一些粒度更细的模型指标,但依然无法精确到个体。所有的模型在做完以后都要留证,它主要是应对当前的过渡时期来做的一种折中。


03 逐步解决业务上的不愿

落地场景是关键:智策-集成联邦学习的风控

狴犴-金控数据要素有偿共享沙箱

针对“业务上的不愿”,我们在风控策略里做了一些联邦学习的集成作为试点。另外我们也提出了一个新的思路,从联邦学习这个层面给予激励,
提供一个公平公正的数据流通平台,在平台上能够把数据的贡献能够清晰的记录下来,并且对数据贡献方给予一定积分上的奖励,促进业务方能够
真正加入到数据和联邦学习的共享两个环节中来。


首先是一个实例,是我们和某持牌消金公司的一个合作。它原本的风控引擎贷前贷中贷后的一些策略还是以规则为主,针对该消金公司想在集团内部拓展业务的场景,我们可以采用联邦学习,在不透露客户具体信息的基础上为他们提供客户准入、以及额度方面的规则与策略,同时也可以获取一些抽象的客户评分,指导其准入和授信。


另外一个案例,是向愿意拥抱联邦学习的业务部门提供的一个激励方案。在数据流通中,目前存在四个痛点:第一是数据权属不明,需要一个公平公正的平台来记录数据的归属;第二是数据价格难判断,所以我们参照市场机制做了一个有偿的共享沙箱;第三是数据隐私容易泄露,安全难保障,这个是联邦学习的拿手好戏,也是我们现在为什么提出多方安全计算的原因;第四是数据流通能力弱,这是一个商业的问题,需要一定的激励机制。

针对这四大问题我们提出了“狴犴”金控数据要素有偿共享沙箱方案,其根本思想还是借助联邦学习,把数据资产用联邦学习做线上打包进行线上交割,为愿意拥抱数据共享的业务方提供一个公平公正的平台,使他们的数据共享没有后顾之忧,同时还能带来一定的激励。狴犴平台使用区块链来做激励的定价,区块链会产生积分,可以用于联邦内的数据交换。

整体框架分为三个部分:狴犴有偿共享平台,采用互联网架构,类似Pusher的消息分发机制;Quorum,做分布式账本,一方面用于记录有偿共享的一些信息、生成电子合约,一方面用于联邦的资产定价。我们发行了两种积分,一种是稳定积分,另一种是用于激励的促活积分;基于联邦的引擎,我们目前选择了FATE。

以下是一个例子:如果银行愿意和其他公司共享,可以把相应的加密数据资产拿来上架,系统会赋予其一个编号,自然也会有买方,双方都采用稳定积分结算。如果购买的次数频繁,供需关系会在平台内引起流通量和价格的变化,自然会激励卖方多放优质的数据上架。这也是联邦的一个好处,数据资产是可以在线交割的,而不像黄金、原油可能需要线下交割。


有偿共享平台有如下特色:数据资产分为raw data、数据产品、数据模型等类型,都可以拿来有偿共享;数据资产不出域,满足监管要求;区块链积分做记账结算;上架的产品为数据资产使用权限,可以存在类似时效、次数之类的限制;采用双轨积分制,稳定积分为联邦资产定价,证券通行证的促活机制能够让稀缺的资源更加显示出其价值;利用区块链技术进行全生命周期的数据安全保证。

以下是联邦数据资产打包的一个例子。资产为某银行的客户数据,但是明文对外不可见,通过类似“撞库”的方式提供收费服务,如果银行的客户信息可以增强买方标签的说服力,就可以有偿共享。在线平台交割避免了很多线下操作的麻烦,例如谈合同等等,但也需要形成一定固有的共识模式。

对于双轨积分制。首先,稳定积分EBP来购买资产,EBP是由金控集团背书的稳定性积分,用于数据资产的共享激励、积分通兑,可以实现出入金的KYC和反洗钱的一些风控策略,后期也可以做一些规则,实现穿透式监管。数据的交割任务同样都在区块链上面存证,这跟之前审计的想法是一
样的。EBST就是我们证券行通证,在稳定积分基础上发行,它可以承担全资源的证券化,解决融资难融资贵的问题,激发中小微企业的入驻平台的积极性。

如果不是真正的数据使用者,也可以申请EBST,获得收益分红。在集团内的收益分红其实就是数据的使用权,收益分红会折算成稳定积分,稳定积分又可以去兑换更多的数据服务,形成一个内生的闭环。

04 创新缓解技术上的不易

提出Federated AI Hub和前端联邦推理的概念

在技术上,我们创新了一些算子。在面对客户的“最后一公里”方面,我们也有一些想法的创新,一个是联邦推理的前端化,第二个是联邦服务的SaaS化。

通常大家使用联邦学习应该是右下角这样一个模式,以local server为中心,我们对比左上角使用FedAI Hub的联邦推理模式,它虽然没有把联邦
训练前端化,但实现了联邦推理的前端化,把联邦放在前端,同时有性能优势,绕开了local server,用手机之类的硬件分担服务器的负担。
以上是目前我们在金控公司内推广遇到的一些痛点。


05 未来展望
关注并期待业界的发展:

• 更成熟的联邦学习工具链,开箱即用,学习成本低
• 标准的统一,使得跨平台合作成为可能
• 金融级安全,安全算法,安全协议经得起推敲
• 更多辅助合规的技术手段、工具(审计),助力法律尽快出台
• 与区块链的结合,建立公正、公平、合理的数据交易环境
• 更多数据资产上线联邦平台
今天的分享就到这里,谢谢大家。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。