破除“迷信”!周志华:深度学习新模型“深度森林”,有望打破神经网络垄断
对于上述在机器学习算法创新研究及产业落地方面的焦点话题,在 8 月 31 日下午举行的以“算法定义 AI 未来”为主题的国际前沿算法峰会上,机器学习之父 Tom Mitchell、香港科技大学教授杨强、南京大学人工智能学院院长周志华、北京大学信息院王立威等四位人工智能领域的顶尖学者和专家进行了分享和探讨,并带来了无监督学习、新型深度学习、AutoML、联邦学习等研究方向上的新锐观点。
以下为四位专家的演讲内容精华,有删减:
机器学习之父 Tom Mitchell 谈无监督学习研究新进展
峰会上,机器学习教父、卡内基梅隆大学计算机学院院长、《机器学习》作者 Tom Mitchell 在演讲中分享了他在无监督学习方面的最新研究进展。
Tom 介绍,他和他的团队目前在进行一个“永无止境的语言学习”的项目,名为 NELL 项目。该项目自 2010 年起立项,机器每天 24 小时不间断工作,工作内容主要有两件事,一是不断学习网络上的知识,二是学习比昨天做的更好,挖掘更多准确的数据。
NELL 研发团队致力于从网络中挖掘非结构性文本并将其变成知识库基础,截止到 2018 年 9 月,NELL 项目已经拥有了 1.2 亿三元的数据知识库,算法的逻辑推理、学习、准确率等能力都在逐年提升,此外,它还可以扩展已知的关系本体,参加一些新型的关系,所有这些均基于原始未标注的数据。
从 NELL 项目中, Tom 等人发现程序更容易从已标注的数据当中学习,对已标注的数据学习起来非常简单,而学习单一的函数非常困难。目前在 NELL 项目中已有十个标注的模型,有超过 2500 万个未标注的数据。
“希望我今天的分享能让大家弄清楚最关键的点,在现实世界中,非标记的数据要远多于标注的数据,机器学习非常重要的一点是要学习如何将非标记的数据进行分类“,Tom 表示,现在 NELL 用未经标注的数据进行学习训练时的准确性已经大大提高,分类能力是其一大优势,团队目前已有超过 4000 个分类方法。
前沿算法是 AI 的“先行区”
香港科技大学教授杨强在题为《人工智能的“先行区”》的演讲分享了其在自动机器学习和联邦迁移学习领域的的新洞察。
杨强将前沿算法比作人工智能的“先行区”,算法、大数据和算力是人工智能的三要素,接下来,杨强从这三大要素详细展开,娓娓道来。
其中,算法是人工智能的热点,过去往往需要很多人工来调参,一个人工智能应用的实现,在算法层面是一个非常冗长的过程,需要很多专家的参与,而目前人工智能领域最缺的恰恰就是专家。那么,算法设计和算法的配置是否可以实现自动化呢?为了解决人才缺乏问题,一个新的方向 — AutoML 出现了,AutoML 即自动化机器学习,调参、配置、评估等流程均通过机器自动化来完成。
如何能够用自动化的方法做优化?主要有三方面:一是配置空间,包括数据预期预处理,变量有数据清洗、样本选择、样本增强等;二是特征抽取,特征可以用不同的方法转化合成也可以通过学习进行新的特征发现。三是模型的训练。
迁移学习是否可以实现自动化,有没有空间可以把迁移学习的问题变成路径优化的问题,如何做保护隐私自动化的迁移学习?
在大数据方面, 现在常常会遇到数据不够,数据分散、割裂,数据孤岛等难题。“AI 是基于大数据的,数据是 AI 的’石油’,就像车一定要有汽油才可以开”。
杨强表示,针对小数据和细碎数据的问题,目前有两个前沿的研究方向,一是迁移学习,如何从大数据的领域迁移到小数据的领域,把知识带过去。现在,很多迁移学习方法已经在不同的应用场景取得了成功,如银行大额贷款等金融场景。二是打破数据孤岛,通过联邦学习来解决细碎数据的问题。细碎数据、割裂分布的数据易面临隐私安全的挑战,在保障隐私的情况下,可通过建立共享模型来解决,这并不是真正交换数据,而是交换一些受到加密保护的模型参数,在这过程中用到的算法叫做联邦学习。当两方数据交叉非常小的情况下,可以利用迁移学习增强联邦学习,这种方法适合银行、电商、零售等跨行业的机构间使用。
在算力方面,算力是离不开芯片的,假设有多个芯片合作,怎样实现高效计算,是否有更高效的算法提高效率?杨强提到,现在有一种技术叫做 RDMA,将其应用在 AI 网络计算的机构上,就可以解决上述问题。
周志华:新型深度学习的探索 — 深度森林
ACM/AAAI/IEEE Fellow,南京大学计算机系主任、人工智能学院院长周志华的演讲无疑是最受观众期待的,他带来了关于新型深度学习的前沿观点。
“众所周知,深度学习取得了巨大成功。但从学术上来讲,深度学习到底是什么?” 演讲伊始,周志华率先抛出问题,“我想绝大多数人对于这个问题的回答,首先会说深度学习就是深度神经网络,在大多数人看来这是两个词,事实上,它们是近义词。谈深度神经网络总离不开从神经网络开始。所谓的神经网络就是简单的数学函数经过迭代后得到的数学系统,其实,我们完全可以从数学上、工程上去理解它的背后到底发生了什么“。
今天谈深度神经网络会谈到模型、算法、参数等。我们现在有了很多层,有些甚至多达一千多层、两千多层,在这样庞大的计算系统中,需要将许多中间参数训练出来。
近段时间业界有人讨论人工智能成功有三个条件,大数据、强大的算力和算法的改进。神经算法、BP 算法早就有了,现在的深度神经网络只不过是有了强大的算力,把老东西放在新的东西上就行了。周志华认为,这个说法是错误的,五六层的神经网络需要的算力在九十年代已经具备了,后来才有了这方面大量的研究并研发出成功的技术,我们用 BP 算法训练神经网络要做梯度优化,防止深度消失,这是今天深度神经网络的中心内容 。
“现在深度神经网络虽然很成功,但背后还有很多问题没有回答。比如说最关键的一点,为什么要做得深?做得深了看似比做得浅了好,大家都往深了去做,但这件事情背后的道理是什么?到今天为止,学术界没有得到所有人都能公认可行的解释“。
周志华现场详细谈到了一种解释,该解释希望从模型复杂度的角度探讨为什么做得深。如果模型越复杂会有很大的容量及很强的泛化能力,提高复杂度就可以提高能力。将神经网络变宽、变深可以提高其复杂度,变宽的同时便增加了基函数的个数,变深时增加了个数及嵌套迭代的函数数量。此外,更大的数据、更强的计算设备、训练技巧会促使我们使用更高复杂度的模型,深度神经网络就是一种容易使用的高复杂度模型。不过,周志华认为,这个观点仍然没有解释清楚深的为什么好,浅的没那么好。
”深度神经网络取得成功背后的奥秘,可能隐藏三件事:第一,逐层加工处理,第二,内置特征变换,第三,模型复杂度够。这只是猜测,我们没有办法从数学上证明,但假设这个猜测是成立的,会给我们带来非常有趣的启发和暗示。其中一个启发是,完全有可能设计出神经网络之外的深度神经模型“。加之,深度神经网络有很多缺陷,因此,周志华团队做出了基于决策数的深度模型 — 深度森林。
深度森林不使用 BP 算法,是基于非可微构建的。自提出后,深度森林已有了比较成功的应用,其和蚂蚁金服就金融场景展开合作,研究检测非法套现的算法,目前该实验中的数据量规模非常大,训练数据为一亿三千万的真实交易,测试数据为五千多万个真实交易。
周志华表示目前已经和英特尔成立了人工智能联合中心,共同研究非神经网络模型对芯片设计可能带来的启发,及从指令级上优化是否有好处。现在的智能化应用越来越离不开 CPU、TensorFlow,周志华等人发现,神经网络之外的很好的模型可能会打破神经网络独有的垄断,也可以降低“缺芯少魂”的风险。
“森林模型其实还在探索,现在有应用已经超出预期,但它仍存在一些问题,比如单样性、硬件加速等问题。现在不知道森林模型能走多远,但以前我们都只知道深度学习就是深度神经网络,现在知道还可以有别的东西,这只是一个开始 “。
深度学习理论研究存在大量空白
“近几年,深度学习非常成功,但反思一下主要是在应用上的成功,深度学习在理论方面其实还有大量的空白,目前关于深度学习的理论,我们还处在一个非常初期的阶段”,北京大学信息学院教授王立威表示。
他认为深度学习的理论研究主要有两个目的,首先是深刻了解深度学习机制,最终目的是希望通过理论研究设计出更好的算法及更好的结构。
首先从神经网络训练算法上看,深度神经网络训练本质是一个优化的问题,最大的特点是非凸优化,针对这方面,近期王立威团队进行了严格理论数学上的研究,通过网络带宽度能达到一定程度、网络参数是随机的点初始这两条假设,可以得到结论:过去一年来,我们常说深度学习实际上是非凸优化的问题,但当网络充分宽时,实际上网络的输出对于网络的参数是非常接近线性的,对线性的模型就很大简化了神经网络训练。此外,从初始点出发,用一阶优化方法就可以找到全局最优点。
有了上述结论后,值得思考的另一个问题是,当自然网络够宽后,一定要用 SDG 等一阶优化方法吗,有没有更好的优化方法来训练深度神经网络?
王立威表示,在网络足够宽的情况下,完全可以找到更好的训练方法,比如用二阶优化的方法,其中有一类算法是高斯牛顿法,非常适合神经网络足够宽的情形。他认为,如何探索用高斯牛顿二阶算法优化神经网络,使它比现在常用的一阶算法准确率更高,这是未来非常值得探索的方向。
网络设计方式既不同于过去人凭经验积累设计网络的结构,也不同机器自动搜索设计网络的结构,王立威等人把网络结构的设计转化成一个数学问题,可以把网络结构和微分方程的数值解紧密联合起来。“ 我们可以找到与之唯一对应的微分方程数值解的方法。在过去针对 ResNet ,我们找到了最简单的微分方程数值解的方法 —欧拉法。我们研究发现 Transformer 对应的是对流扩散方程,该方程是数学物理里非常基本的方程。
在微分方程数值解领域,王立威等人做了一些调研发现,在这个领域里没有任何人用 Lie-Trotter splitting 数值解方法,因为它是次优的数值解方法。那在微分方程数值解里能否找到更好的方法呢?答案确实是存在的。王立威团队提出了一个新理论:可以用新的 Strang-Marchuk splitting 微分方程数值解推法反推新的 Transformer 结构。
- 点赞
- 收藏
- 关注作者
评论(0)