《强化学习:原理与Python实现 》 —3.2.2 策略改进

举报
华章计算机 发表于 2019/11/13 12:09:13 2019/11/13
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第三章,第3.2.2节,作者肖智清。

3.2.2 策略改进

对于给定的策略,如果得到该策略的价值函数,则可以用策略改进定理得到一个改进的策略。

策略改进定理的内容如下:对于两个确定性的策略和,如果

image.png(3-1)

则,即

image.png(3-2)

在此基础上,如果存在状态使得(3-1)式的不等号是严格小于号,那么就存在状态使得(3-2)式中的不等号也是严格小于号。(证明:考虑到

 

 image.png

image.png

 image.png

严格不等号的证明类似。)

对于一个确定性策略,如果存在着,使得,那么我们可以构造一个新的确定策略,它在状态做动作,而在除状态以外的状态的动作都和策略一样。可以验证,策略和满足策略改进定理的条件。这样,我们就得到了一个比策略更好的策略。这样的策略更新算法可以用算法3-3来表示。

算法3-3 有模型策略改进算法

image.png

值得一提的是,在算法3-3中,旧策略和新策略只在某些状态上有不同的动作值,新策略可以很方便地在旧策略的基础上修改得到。所以,如果在后续不需要使用旧策略的情况下,可以不为新策略分配空间。算法3-4就是基于这种思路的策略改进算法。

算法3-4 有模型策略改进算法(节约空间的做法)

image.png

image.png

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。