《强化学习:原理与Python实现 》 —3.2.2 策略改进
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第三章,第3.2.2节,作者肖智清。
3.2.2 策略改进
对于给定的策略,如果得到该策略的价值函数,则可以用策略改进定理得到一个改进的策略。
策略改进定理的内容如下:对于两个确定性的策略和,如果
(3-1)
则,即
(3-2)
在此基础上,如果存在状态使得(3-1)式的不等号是严格小于号,那么就存在状态使得(3-2)式中的不等号也是严格小于号。(证明:考虑到
有
严格不等号的证明类似。)
对于一个确定性策略,如果存在着,使得,那么我们可以构造一个新的确定策略,它在状态做动作,而在除状态以外的状态的动作都和策略一样。可以验证,策略和满足策略改进定理的条件。这样,我们就得到了一个比策略更好的策略。这样的策略更新算法可以用算法3-3来表示。
算法3-3 有模型策略改进算法
值得一提的是,在算法3-3中,旧策略和新策略只在某些状态上有不同的动作值,新策略可以很方便地在旧策略的基础上修改得到。所以,如果在后续不需要使用旧策略的情况下,可以不为新策略分配空间。算法3-4就是基于这种思路的策略改进算法。
算法3-4 有模型策略改进算法(节约空间的做法)
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)