《强化学习：原理与Python实现》 —3.2.2　策略改进

华章计算机发表于 2019/11/13 12:09:13 2019/11/13

【摘要】本节书摘来自华章计算机《强化学习：原理与Python实现》一书中第三章，第3.2.2节，作者肖智清。

对于给定的策略，如果得到该策略的价值函数，则可以用策略改进定理得到一个改进的策略。

策略改进定理的内容如下：对于两个确定性的策略和，如果

（3-1）

则，即

（3-2）

在此基础上，如果存在状态使得（3-1）式的不等号是严格小于号，那么就存在状态使得（3-2）式中的不等号也是严格小于号。（证明：考虑到

有

严格不等号的证明类似。）

对于一个确定性策略，如果存在着，使得，那么我们可以构造一个新的确定策略，它在状态做动作，而在除状态以外的状态的动作都和策略一样。可以验证，策略和满足策略改进定理的条件。这样，我们就得到了一个比策略更好的策略。这样的策略更新算法可以用算法3-3来表示。

算法3-3　有模型策略改进算法

值得一提的是，在算法3-3中，旧策略和新策略只在某些状态上有不同的动作值，新策略可以很方便地在旧策略的基础上修改得到。所以，如果在后续不需要使用旧策略的情况下，可以不为新策略分配空间。算法3-4就是基于这种思路的策略改进算法。

算法3-4　有模型策略改进算法（节约空间的做法）

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

《强化学习：原理与Python实现 》 —3.2.2 策略改进