- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《强化学习：原理与Python实现》 —1.2　强化学习的应用

华章计算机发表于 2019/11/12 20:15:36 2019/11/12

【摘要】本节书摘来自华章计算机《强化学习：原理与Python实现》一书中第一章，第1.2节，作者肖智清。

1.2　强化学习的应用

基于强化学习的人工智能已经有了许多成功的应用。本节将介绍强化学习的一些成功案例，让你更直观地理解强化学习，感受强化学习的强大。

电动游戏：电动游戏，主要指玩家需要根据屏幕画面的内容进行操作的游戏，包括主机游戏吃豆人（PacMan，见图1-2）、PC游戏星际争霸（StarCraft）、手机游戏Flappy Bird等。很多游戏需要得到尽可能高的分数，或是要在多方对抗中获得胜利。同时，对于这些游戏，很难获得在每一步应该如何操作的标准答案。从这个角度看，这些游戏的游戏AI需要使用强化学习。基于强化学习，研发人员已经开发出了许多强大的游戏AI，能够超越人类能够得到的最佳结果。例如，在主机Atari 2600的数十个经典游戏中，基于强化学习的游戏AI已经在将近一半的游戏中超过人类的历史最佳结果。

图1-2　街机游戏吃豆人（本图片改编自https://en.wikipedia.org/wiki/Pac-Man#Gameplay）

棋盘游戏：棋盘游戏是围棋（见图1-3）、黑白翻转棋、五子棋等桌上游戏的统称。通过强化学习可以实现各种棋盘运动的AI。棋盘AI有着明确的目标—提高胜率，但是每一步往往没有绝对正确的答案，这正是强化学习所针对的场景。Deepmind公司使用强化学习研发出围棋AI AlphaGo，于2016年3月战胜围棋顶尖选手李世石，于2017年5月战胜排名世界第一的围棋选手柯洁，引起了全社会的关注。截至目前，最强的棋盘游戏AI是DeepMind在2018年12月发表的AlphaZero，它可以在围棋、日本将棋、国际象棋等多个棋盘游戏上达到最高水平，并远远超出人类的最高水平。

图1-3　一局围棋棋谱（图中实心圆表示黑棋的棋子，空心圆表示白棋的棋子，圆里的数字记录棋子是在第几步被放在棋盘上，本图片改编自论文D. Silver, et al. Mastering the game of Go without human knowledge, Nature, 2017）

自动驾驶：自动驾驶问题通过控制方向盘、油门、刹车等设备完成各种运输目标（见图1-4）。自动驾驶问题既可以在虚拟环境中仿真（比如在电脑里仿真），也可能在现实世界中出现。有些任务往往有着明确的目标（比如从一个指定地点到达另外一个指定地点），但是每一个具体的动作却没有正确答案作为参考。这正是强化学习所针对的任务。基于强化学习的控制策略可以帮助开发自动驾驶的算法。

图1-4　自动驾驶（本图截取自仿真平台AirSimNH）

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《强化学习：原理与Python实现》 —1.2　强化学习的应用

1.2　强化学习的应用

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《强化学习：原理与Python实现 》 —1.2 强化学习的应用

1.2 强化学习的应用

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《强化学习：原理与Python实现》 —1.2　强化学习的应用

1.2　强化学习的应用