《强化学习:原理与Python实现 》 —3.5.3 有模型价值迭代求解
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第三章,第3.5.3节,作者肖智清。
3.5.3 有模型价值迭代求解
现在我们用价值迭代算法求解冰面滑行问题的最优策略。代码清单3-9的iterate_value()函数实现了价值迭代算法。这个函数使用参数tolerant来控制价值迭代的精度。代码清单3-10在冰面滑行问题上测试了iterate_value()函数。
代码清单3-9 价值迭代的实现
代码清单3-10 利用价值迭代算法求解最优策略
策略迭代和价值迭代得到的最优价值函数和最优策略应该是一致的。最优状态价值函数为:
最优策略为:
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)