- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《强化学习：原理与Python实现》 —1 初识强化学习

华章计算机发表于 2019/11/12 20:13:54 2019/11/12

【摘要】本节书摘来自华章计算机《强化学习：原理与Python实现》一书中第一章，第1.1节，作者肖智清。

CHAPTER 1

第1章

初识强化学习

强化学习（Reinforcement Learning，简称RL，又译为“增强学习”）这一名词来源于行为心理学，表示生物为了趋利避害而更频繁实施对自己有利的策略。例如，我每天工作中会根据策略决定做出各种动作。如果我的某种决定使我升职加薪，或者使我免遭处罚，那么我在以后的工作中会更多采用这样的策略。据此，心理学家Ivan Pavlov在1927年发表的专著中用“强化”（reinforcement）这一名词来描述特定刺激使生物更趋向于采用某些策略的现象。强化行为的刺激可以称为“强化物”（reinforcer）。因为强化物导致策略的改变称为“强化学习”。

心理学家Jack Michael于1975年发表文章《Positive and negative reinforcement, a distinction that is no longer necessary》，说明了强化包括正强化（positive reinforcement）和负强化（negative reinforcement），其中正强化使得生物趋向于获得更多利益，负强化使得生物趋向于避免损害。在前面例子中，升职加薪就是正强化，免遭处罚就是负强化。正强化和负强化都能够起到强化的效果。

人工智能（Artificial Intelligence，AI）领域中有许多类似的趋利避害的问题。例如，著名的围棋AI程序AlphaGo可以根据不同的围棋局势下不同的棋。如果它下得好，它就会赢；如果下得不好，它就会输。它根据下棋的经验不断改进自己的棋艺，这就和行为心理学中的情况如出一辙。所以，人工智能借用了行为心理学的这一概念，把与环境交互中趋利避害的学习过程称为强化学习。

本章介绍人工智能领域中强化学习的基础知识，阐述强化学习的学习方法，并给出强化学习中智能体和环境交互的编程实例。

1.1　强化学习及其关键元素

在人工智能领域中，强化学习是一类特定的机器学习问题。在一个强化学习系统中，决策者可以观察环境，并根据观测做出行动。在行动之后，能够获得奖励。强化学习通过与环境的交互来学习如何最大化奖励。例如，一个走迷宫的机器人在迷宫里游荡（见

图1-1）。机器人观察周围的环境，并且根据观测来决定如何移动。错误的移动会让机器人浪费宝贵的时间和能量，正确的移动会让机器人成功走出迷宫。在这个例子中，机器人的移动就是它根据观测而采取的行动，浪费的时间能量和走出迷宫的成功就是给机器人的奖励（时间能量的浪费可以看作负奖励）。

图1-1　机器人走迷宫

强化学习的最大特点是在学习过程中没有正确答案，而是通过奖励信号来学习。在机器人走迷宫的例子中，机器人不会知道每次移动是否正确，只能通过花费的时间能量以及是否走出迷宫来判断移动的合理性。

一个强化学习系统中有两个关键元素：奖励和策略。

奖励（reward）：奖励是强化学习系统的学习目标。学习者在行动后会接收到环境发来的奖励，而强化学习的目标就是要最大化在长时间里的总奖励。在机器人走迷宫的例子中，机器人花费的时间和能量就是负奖励，机器人走出迷宫就可以得到正奖励。

策略（policy）：决策者会根据不同的观测决定采用不同的动作，这种从观测到动作的关系称为策略。强化学习的学习对象就是策略。强化学习通过改进策略以期最大化总奖励。策略可以是确定性的，也可以不是确定性的。在机器人走迷宫的例子中，机器人根据当前的策略来决定如何移动。

强化学习试图修改策略以最大化奖励。例如，机器人在学习过程中不断改进策略，使得以后能更快更省事地走出迷宫。

强化学习与监督学习和非监督学习有着本质的区别。

强化学习与监督学习的区别在于：对于监督学习，学习者知道每个动作的正确答案是什么，可以通过逐步比对来学习；对于强化学习，学习者不知道每个动作的正确答案，只能通过奖励信号来学习。强化学习要最大化一段时间内的奖励，需要关注更加长远的性能。与此同时，监督学习希望能将学习的结果运用到未知的数据，要求结果可推广、可泛化；强化学习的结果却可以用在训练的环境中。所以，监督学习一般运用于判断、预测等任务，如判断图片的内容、预测股票价格等；而强化学习不适用于这样的任务。

强化学习与非监督学习的区别在于：非监督学习旨在发现数据之间隐含的结构；而强化学习有着明确的数值目标，即奖励。它们的研究目的不同。所以，非监督学习一般用于聚类等任务，而强化学习不适用于这样的任务。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《强化学习：原理与Python实现》 —1 初识强化学习

CHAPTER 1

第1章

初识强化学习

1.1　强化学习及其关键元素

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《强化学习：原理与Python实现 》 —1 初识强化学习

CHAPTER 1

第1章

初识强化学习

1.1 强化学习及其关键元素

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《强化学习：原理与Python实现》 —1 初识强化学习

1.1　强化学习及其关键元素