《数字化转型之路》 —2.3.6 在技术驱动下,人工智能技术创新产生了空前的影响力
2.3.6 在技术驱动下,人工智能技术创新产生了空前的影响力
上一小节中,我们谈到人工智能催生了新兴的工业革命,而促使这一轮人工智能产业快速发展的根本推动力是技术。
当前,人工智能正在多个专业领域超过人类专家的最高水平,如围棋、德州扑克、计算机视觉、自然语言处理等领域。也就是说,在这些领域,AI不再仅仅作为一个辅助,而是几乎已经上升到了主角的地位。我们经常会提到“人机协同”这个概念,但未来的人机协同将与我们以前所理解的大不相同。以前,人机协同的作用是通过计算机辅助人类工作,而在今后,计算机和人类的位置将完全相反,即在未来世界里,人类将通过辅助计算机进行高效工作。
举一个我们所熟知的棋类世界的例子。
在AlphaGo推出之前,IBM的超级计算机“深蓝”就曾战胜过国际象棋的世界冠军,那时候的计算机更多的是使用一种叫作“暴力搜索”的技术。所谓下棋,特别是信息完全的棋类游戏,本质上其实可以看作一种搜索——搜索一个巨大可行性空间里最可能获胜的一条路径。国际象棋的搜索空间相对比较有限,所以那个年代的计算机可以采用一种类似于暴力搜索的方式去找到一个最优解。但这种方法却不适用于围棋,因为围棋中有19×19的数量位置,穷尽所有可能性要比宇宙上所有原子的数量还要多,这意味着,再强大的计算机也不可能去把它所有的空间进行一个完全的搜索。而技术发展到今天,我们可以通过智能化方案来解决这个的问题。AlphaGo也因此应势而生。
那么AlphaGo到底是如何下棋的呢?
AlphaGo实际上选择了一种新的下棋方式。促使AlphaGo提高棋力、打败人类选手的秘诀主要有三个:深度神经网络、监督/强化学习以及蒙特卡洛树搜索。
深度神经网络指包含超过一个认知层的计算机神经网络。人们设计出不同的神经网络“层”,来解决不同层级的认知任务。这种具备许多“层”的神经网络,被称为深度神经网络。AlphaGo的核心算法***包含两种深度神经网络:价值网络和策略网络。价值网络负责尝试每一手棋中的每一种可能性,然后在下一手棋的各个位置去标注胜率。实际上这个胜率是通过大量的模拟下棋操作后得到的一个综合胜率。通过综合胜率的集中,可以判断下一手应该走到哪,然后反复重复此过程。最终,价值网络能够辅助AlphaGo抛弃不合适的路线。策略网络辅助AlphaGo对每一手棋的落子进行优化,左右局部“战术”,以减少失误。两种神经网络结合在一起,使得AlphaGo不需要过于庞大的计算也能够走出精妙的棋局,就像最顶尖的人类棋手一样。在研发的初始阶段,AlphaGo需要收集大量的围棋对弈数据,通过大量的人类棋局数据来训练神经网络模型,形成自己独特的判断方式。但实验证明,通过大量的棋局训练出来的神经网络也只能让AlphaGo达到业余的水平,仅有深度学习网络还不足以打造专业水准的下棋机器人,去与人类的顶级专家进行对战。
故此,除了深度学习技术加持外,AlphaGo还需要大量的监督学习和强化学习技术辅助。监督学习和强化学习是机器学习的不同分支。监督学习是指机器通过人类输入的信息进行学习,而加强学习是指机器自主收集环境中的相关信息以做出判断,并形成自己的“经验”,从而增强对整个棋局的判断。
最后,蒙特卡洛树是一种搜索算法。在进行决策判断时,它会从根节点开始不断选择分支子节点,通过不断的决策使得游戏局势向AI所预测的最优点移动,直到模拟游戏胜利。每一次的选择都会同时产生多个可能性,通过蒙特卡洛树算法,AlphaGo可以先进行仿真运算,推断出可能的结果再做出决定。也就是说,在引入强化学习与蒙特卡洛树之后,AlphaGo能够在与自己做模拟对战,以及每一次与人类棋手进行对弈时,将对战中的结果反过来再作为新的棋谱重新输入到神经网络中去做训练,得到一个更新的神经网络,然后再把这个过程不断循环,从而通过互相的对战提高棋谱质量,以生成新范式,实现棋谱质量的提升。因此,AlphaGo最终能够打败人类顶尖棋手,不仅仅是一个单纯的深度学习训练所造就的,而是因为它综合应用了深度学习、监督/强化学习和蒙特卡洛搜索这三种技术。在AlphaGo诞生之后,DeepMind团队又于2017年10月重磅发布了AlphaGo Zero,再次震惊世人。
之前AlphaGo系列的第一步都是用人类的棋谱来做训练,即利用人类的棋谱训练出最开始的神经网络。而AlphaGo Zero却实现了AI发展史中非常有意义的一步——“无师自通”,即AlphaGo Zero可以不借助于人类棋谱的指引,更不需要参考任何人类的先验知识,完全让机器自己通过强化学习从零开始探索。AlphaGo Zero只用了一套策略与价值合体的神经网络来下棋,从随机走子开始自我对弈学习,通过左右互搏来增长棋艺,最终达到百战百胜。新的强化学习策略极为高效,只用3天,AlphaGo Zero就以100:0完全击败了2016年3月轰动世界的AlphaGo Lee。经过21天的学习,它达到了Master的实力(而Master在2017年5月以3:0战胜世界围棋第一人柯洁)。在图2-16中展示了AlphaGo Zero的进步速度曲线,可以看到在40天后它能以90%的胜率战胜Master,成为目前最强的围棋程序。此外,值得一提的是AlphaGo Zero在计算过程中直接由神经网络给出叶子节点胜率,不需要快速走子至终局,计算资源得以大大节省,只需要4个TPU即可实现(AlphaGo Lee需要48个)。
图2-16 AlphaGo Zero进步速度示意图
可以说,人工智能已经在围棋领域创造了一定程度的辉煌,那么在其他博弈游戏中它的表现如何呢?
从游戏规则来看,围棋游戏是一种信息完全公开的博弈,玩家可以看到棋盘上的棋子,并预测落子可能性;而另外一种广为流行的博弈游戏——德州扑克则不同,玩家手中的底牌是其他玩家看不到的,它是一种不完整信息博弈,对人工智能技术而言更具挑战。称霸德州扑克赛场的赌神Libratus尝试利用强化学习来做玩转扑克的AI程序,但其并没有用到深度学习,它选择的是反事实遗憾最小化、残局计算、策略剔除技术。Libratus所用到的技术既不需要领域专家知识,也没有使用人类数据,甚至不是专门为扑克设计的。但是,这些技术可以完美适用于多种不完整信息博弈。
“不完整信息”是德扑的一个主要特征。围棋、国际象棋、跳棋等棋类游戏,都属于完美信息博弈,对战的双方,清楚每一时刻局面上的全部情况。相比之下,德州扑克存在大量的隐藏信息,包括对手持有什么牌、对手是否在佯装诈唬等。故此,Libratus所设计的这个AI程序的强大之处主要体现在:第一,它可以观察对手的套路;第二,它可以观察自己的套路。随后再通过策略剔除,使得对手完全摸不着它的套路,但它却能够对对手的套路了然于胸,而这个时候,程序的胜率就被极大地提高了。
除了围棋、扑克等博弈游戏领域,人工智能在计算机视觉方面也有诸多成功的应用,包括人脸识别、语音识别、声纹识别甚至唇语识别等,在这些为人熟知的应用领域中,人工智能取得的最新技术进展包括:迁移学习和对抗网络。
前面我们提到过,人工智能模型的训练和学习依赖于大量的数据样本作为支撑,例如,要进行语言听力的学习就需要大量的声音数据。但是,这一学习过程其实存在一个很大的问题:如果在某一领域中,没有这样的海量数据作为输入,那么该怎么办?在视觉领域,有一种迁移学习的技术可以很好地解决数据的问题。
迁移学习的核心思想是对其他领域中训练的结果进行重用,具体来说,即在一个领域里面用深度的方式训练出一组神经网络之后,将这个神经网络用在另外一个新的领域。那么在这个新的领域里,可能只用少量的数据就可以获得比较好的学习结果。
至于GAN(生成式对抗网络)技术,它为更大范围的无监督任务打开了深度学习的大门。在这些任务中,标签数据并不存在,或者获取起来太昂贵,而对抗网络技术则可以减少深层神经网络所需要的负载。GAN由两个相互竞争的神经网络组成,其逻辑关系如图2-17所示。第一个网络即生成器,创建了与真实数据集完全相同的假数据。第二个网络即判别器,接收真实和综合的数据。随着时间的推移,每个网络都在改进,使这对网络能够学习给定数据集的整个分布。
图2-17 GAN生成对抗网络组成示意图
- 点赞
- 收藏
- 关注作者
评论(0)