风控领域图深度学习算法思考
风控领域图深度学习算法思考
如今,图计算以及图深度学习算法的发展使得将图深度学习算法应用在风控领域变为可能。但在我看来,在风控领域使用图深度学习算法实现不同业务目的,这个进程还处在发展初期阶段。具体主要有以下几点展现:
1. 数据方面:当前很少有公开的风控领域的图数据能够直接用于风控场景的图深度学习算法。而且也缺少统一的数据格式标准和前期处理方式,这在在面对复杂场景异构图数据时,将会产生不同算法间的隔阂,需要花费相当的精力去进行数据前处理及格式转换。数据方面的欠缺会阻塞相关算法的开发以及验证,不同的算法也缺少统一的baseline数据进行算法性能的对比。
在这个问题下,我了解到当前有几种解决方法:
a. 算法研究者针对风控领域下不同场景自己构造数据,进行模型流程可行性构造及算法的初步验证。可以将新构建的模型与传统机器学习算法和GCN模型进行对比。当前DGFraud平台就是基于自己构建相关demo数据来验证模型流程的可行性,但没有与其他模型进行对比,仅实现了模型代码的复现。
b. 算法研究者自己拥有数据源。有的互联网公司,由于业务的特点,能够很方便接触到海量的用户数据(交易数据、APP下载数据、登录/注册数据、浏览/购买数据等),其中蚂蚁金服较为突出。这些公司或者组织能够很方便的基于自己现实业务,利用现有数据进行模型的构建。但由于这些用户数据的私密性,这些数据仅在其所有者内部使用,外人接触不到。这也造成业内没有统一的标准进行模型的对比验证。各家目前还是各自为营,自产自销。
c. 对现有非图结构数据的改造。这部分工作需要较强的建模能力以及一些行业经验,因为面对不同业务场景的图数据建模过程往往是不一样的,需要用不同的方法、基于不同的业务判断规则进行。这部分也是较为耗时耗力的过程,得到的模型可以和传统的机器学习算法,如GBDT、Xgboost,进行比对。
2. 算法模型方面:当前风控领域的图深度学习算法在不同场景下还没有很好的统一性。换句话说,现在单个算法主要还是聚焦在较为单一的风控场景。比如首个利用图卷积进行恶意账户识别的GEM算法主要使用于账户登录/注册场景。GraphConsis算法主要聚焦在账户的恶意/欺诈评论识别。数据的隔阂,统一数据的缺少以及业务的针对性是造成模型针对面较窄的一些原因。
3. 对于行业业务经验及规则的依赖:不难发现,当前针对风控领域下不同场景所构建的图深度学习算法在一定程度上还是要依赖其应用场景的业务经验和经过总结的判断规则。如GEM算法基于账号的登录/注册密度及账户行为频率特征构建模型;GraphConsis主要针对文本、特征、关系的不一致性来构建模型。这种对于经验、规则的依赖也体现出风控领域图深度学习算法离成熟还有一段不短的路要走。
4. 传统图分析算法与图深度学习算法的联排:真实风控业务场景的数据量是非常巨大的,但当前的图深度学习算法在处理十亿百亿点边规模的数据时还是有些无能为力。所以大规模图数据库+传统图分析算法+图深度学习算法是一套比较理想的结构。但当下比较热门的平台框架都没有将这三点很好的结合起来。如,TigerGraph虽然有大规模图查询能力以及自己开发的语言用于支撑传统图分析算法和业务规则标准的联排,但整体框架缺少图深度学习能力;DGL虽然有很强大的图深度学习能力,但欠缺大规模图存储及查询能力。综合来看,华为云GES的Eywa+GDL框架在未来还有很大的应用和成长空间。
下面是我对算法联排的一点简单思考,以基于邀请关系的羊毛党识别场景为例:
1. 传统图分析算法 + GNN算法
a. 利用传统图分析算法Connected Component算法得到账户点的多个cc,将多个cc及与每个cc中与账户节点相连的其他类型的节点导出,构成多个子图。
b. 将多个子图分别利用GNN算法进行账户节点是否为fraud的预测判断。
2. 传统图分析算法与行业规则的结合
a. 利用传统图分析算法Connected Component算法得到账户点的多个cc,将多个cc及与每个cc中与账户节点相连的其他类型的节点导出,构成多个子图。
b. 利用和行业的规则及经验,对每个子图中账户节点与其他类型节点的联系/特征进行进一步分析判断。
综上,图深度学习技术应用在风控领域已经证明是有效且必要的,但发展时间较短,整体进程还处在发展初期阶段。并且当前模型开发者需要面对数据来源狭窄、格式、验证标准尚未统一、应用场景多样等诸多方面的挑战。但新兴事物、技术的发展本就在不断摸索中前进,我也希望有更多伙伴能够一起加入这个领域,推动图深度学习不断前进。
- 点赞
- 收藏
- 关注作者
评论(0)