《强化学习:原理与Python实现 》 —2.1.2 环境与动力

举报
华章计算机 发表于 2019/11/12 20:49:29 2019/11/12
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第二章,第2.1.2节,作者肖智清。

2.1.2 环境与动力

Markov决策过程的环境由动力刻画。本节介绍动力的定义和导出量。

对于有限Markov决策过程,可以定义函数为Markov决策过程的动力(dynamics):

 image.png

函数中间的竖线“|”取材于条件概率中间的竖线。

利用动力的定义,可以得到以下其他导出量。

状态转移概率:

 image.png

给定“状态–动作”的期望奖励:

 image.png

给定“状态–动作–下一状态”的期望奖励:

 image.png

对于不是有限Markov决策过程的Markov决策过程,可以用类似的方法定义动力函数与导出量,只是定义时应当使用概率分布函数。动力的定义将离散空间的情况和连续空间的情况用统一的字母表示,简化了书写。

我们来看一个有限Markov决策过程的例子:某个任务的状态空间为,

动作空间为,奖励空间为,转移概率由表2-1定义。

该Markov决策过程可以用状态转移图(见图2-1)表示。

 image.png

image.png

图2-1 示例的状态转移图


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。