《强化学习:原理与Python实现 》 —2.1.2 环境与动力
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第二章,第2.1.2节,作者肖智清。
2.1.2 环境与动力
Markov决策过程的环境由动力刻画。本节介绍动力的定义和导出量。
对于有限Markov决策过程,可以定义函数为Markov决策过程的动力(dynamics):
函数中间的竖线“|”取材于条件概率中间的竖线。
利用动力的定义,可以得到以下其他导出量。
状态转移概率:
给定“状态–动作”的期望奖励:
给定“状态–动作–下一状态”的期望奖励:
对于不是有限Markov决策过程的Markov决策过程,可以用类似的方法定义动力函数与导出量,只是定义时应当使用概率分布函数。动力的定义将离散空间的情况和连续空间的情况用统一的字母表示,简化了书写。
我们来看一个有限Markov决策过程的例子:某个任务的状态空间为,
动作空间为,奖励空间为,转移概率由表2-1定义。
该Markov决策过程可以用状态转移图(见图2-1)表示。
图2-1 示例的状态转移图
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)