《强化学习:原理与Python实现 》 —3.5.3 有模型价值迭代求解

举报
华章计算机 发表于 2019/11/13 12:31:18 2019/11/13
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第三章,第3.5.3节,作者肖智清。

3.5.3 有模型价值迭代求解

现在我们用价值迭代算法求解冰面滑行问题的最优策略。代码清单3-9的iterate_value()函数实现了价值迭代算法。这个函数使用参数tolerant来控制价值迭代的精度。代码清单3-10在冰面滑行问题上测试了iterate_value()函数。

代码清单3-9 价值迭代的实现

image.png

image.png

代码清单3-10 利用价值迭代算法求解最优策略

image.png

策略迭代和价值迭代得到的最优价值函数和最优策略应该是一致的。最优状态价值函数为:

 image.png

最优策略为:

image.png

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。