《强化学习:原理与Python实现 》 —3.2.3 策略迭代
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第三章,第3.2.3节,作者肖智清。
3.2.3 策略迭代
策略迭代是一种综合利用策略评估和策略改进求解最优策略的迭代方法。
见图3-1和算法3-5,策略迭代从一个任意的确定性策略开始,交替进行策略评估和策略改进。这里的策略改进是严格的策略改进,即改进后的策略和改进前的策略是不同的。对于状态空间和动作空间均有限的Markov决策过程,其可能的确定性策略数是有限的。由于确定性策略总数是有限的,所以在迭代过程中得到的策略序列一定能收敛,使得到某个,有(即对任意的均有)。由于在的情况下,,进而,满足Bellman最优方程。因此,就是最优策略。这样就证明了策略迭代能够收敛到最优策略。
图3-1 策略迭代示意图
算法3-5 有模型策略迭代
策略迭代也可以通过重复利用空间来节约空间。在算法3-6中,为了节约空间,在各次迭代中用相同的空间()来存储状态价值函数,用空间()来存储确定性策略。
算法3-6 有模型策略迭代算法(节约空间的版本)
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)