- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《强化学习：原理与Python实现》 —1.4　强化学习的分类

华章计算机发表于 2019/11/12 20:18:30 2019/11/12

【摘要】本节书摘来自华章计算机《强化学习：原理与Python实现》一书中第一章，第1.4.1节，作者肖智清。

1.4　强化学习的分类

强化学习的任务和算法多种多样，本节介绍一些常见的分类（见图1-6）。

图1-6　强化学习的分类

1.4.1　按任务分类

根据强化学习的任务和环境，可以将强化学习任务作以下分类。

单智能体任务（single agent task）和多智能体任务（multi-agent task）：顾名思义，根据系统中的智能体数量，可以将任务划分为单智能体任务和多智能体任务。单智能体任务中只有一个决策者，它能得到所有可以观察到的观测，并能感知全局的奖励值；多智能体任务中有多个决策者，它们只能知道自己的观测，感受到环境给它的奖励。当然，在有需要的情况下，多个智能体间可以交换信息。在多智能体任务中，不同智能体奖励函数的不同会导致它们有不同的学习目标（甚至是互相对抗的）。在本书没有特别说明的情况下，一般都是指单智能体任务。

回合制任务（episodic task）和连续性任务（sequential task）：对于回合制任务，可以有明确的开始状态和结束状态。例如在下围棋的时候，刚开始棋盘空空如也，最后棋盘都摆满了，一局棋就可以看作是一个回合。下一个回合开始时，一切重新开始。也有一些问题没有明确的开始和结束，比如机房的资源调度。机房从启用起就要不间断地处理各种信息，没有明确的结束又重新开始的时间点。

离散时间环境（discrete time environment）和连续时间环境（continuous time environment）：如果智能体和环境的交互是分步进行的，那么就是离散时间环境。如果智能体和环境的交互是在连续的时间中进行的，那么就是连续时间环境。

离散动作空间（discrete action space）和连续动作空间（continuous action space）：这是根据决策者可以做出的动作数量来划分的。如果决策得到的动作数量是有限的，则为离散动作空间，否则为连续动作空间。例如，走迷宫机器人如果只有东南西北这4种移动方式，则其为离散动作空间；如果机器人向360°中的任意角度都可以移动，则为连续动作空间。

确定性环境任务（deterministic environment）和非确定性环境（stochastic environ-ment）：按照环境是否具有随机性，可以将强化学习的环境分为确定性环境和非确定性环境。例如，对于机器人走固定的某个迷宫的问题，只要机器人确定了移动方案，那么结果就总是一成不变的。这样的环境就是确定性的。但是，如果迷宫会时刻随机变化，那么机器人面对的环境就是非确定性的。

完全可观测环境（fully observable environment）和非完全可观测环境（partially observable environment）：如果智能体可以观测到环境的全部知识，则环境是完全可观测的；如果智能体只能观测到环境的部分知识，则环境是非完全可观测的。例如，围棋问题就可以看作是一个完全可观测的环境，因为我们可以看到棋盘的所有内容，并且假设对手总是用最优方法执行；扑克则不是完全可观测的，因为我们不知道对手手里有哪些牌。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《强化学习：原理与Python实现》 —1.4　强化学习的分类

1.4　强化学习的分类

1.4.1　按任务分类

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《强化学习：原理与Python实现 》 —1.4 强化学习的分类

1.4 强化学习的分类

1.4.1 按任务分类

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《强化学习：原理与Python实现》 —1.4　强化学习的分类

1.4　强化学习的分类

1.4.1　按任务分类