《强化学习：原理与Python实现》 —3.5.3　有模型价值迭代求解

华章计算机发表于 2019/11/13 12:31:18 2019/11/13

【摘要】本节书摘来自华章计算机《强化学习：原理与Python实现》一书中第三章，第3.5.3节，作者肖智清。

现在我们用价值迭代算法求解冰面滑行问题的最优策略。代码清单3-9的iterate_value()函数实现了价值迭代算法。这个函数使用参数tolerant来控制价值迭代的精度。代码清单3-10在冰面滑行问题上测试了iterate_value()函数。

代码清单3-9　价值迭代的实现

代码清单3-10　利用价值迭代算法求解最优策略

策略迭代和价值迭代得到的最优价值函数和最优策略应该是一致的。最优状态价值函数为：

最优策略为：

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

《强化学习：原理与Python实现 》 —3.5.3 有模型价值迭代求解