《强化学习：原理与Python实现》 —3.3　有模型价值迭代

华章计算机发表于 2019/11/13 12:21:11 2019/11/13

【摘要】本节书摘来自华章计算机《强化学习：原理与Python实现》一书中第三章，第3.3节，作者肖智清。

3.3　有模型价值迭代

价值迭代是一种利用迭代求解最优价值函数进而求解最优策略的方法。在3.2.1节介绍的策略评估中，迭代算法利用Bellman期望方程迭代求解给定策略的价值函数。与之相对，本节将利用Bellman最优方程迭代求解最优策略的价值函数，并进而求得最优策略。

与策略评估的情形类似，价值迭代算法有参数来控制迭代的终止条件，可以是误差容忍度或是最大迭代次数。

算法3-7给出了一个价值迭代算法。这个价值迭代算法中先初始化状态价值函数，然后用Bellman最优方程来更新状态价值函数。根据第3.1节的证明，只要迭代次数足够多，最终会收敛到最优价值函数。得到最优价值函数后，就能很轻易地给出确定性的最优策略。

算法3-7　有模型价值迭代算法

与策略评估的迭代求解类似，价值迭代也可以在存储状态价值函数时重复使用空间。算法3-8给出了重复使用空间以节约空间的版本。

算法3-8　有模型价值迭代（节约空间的版本）

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。