《强化学习:原理与Python实现 》 —3.6 本章小结

举报
华章计算机 发表于 2019/11/13 12:32:19 2019/11/13
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第三章,第3.6节,作者肖智清。

3.6 本章小结

本章对动力已知的Markov决策过程进行迭代的策略评估和最优策略求解。严格意义上说,这些迭代算法都是求解Bellman方程的数值算法,而不是从数据中进行学习的机器学习算法。从下一章开始,我们将利用经验进行学习,进入机器学习的部分。

本章要点

策略评估是求解给定策略的价值。利用Banach不动点定理,可以用迭代的方法求解Bellman期望方程,得到价值估计。

对于给定的价值函数,可以进行策略改进。策略改进的一种方法是为每个状态选择动作。

策略迭代交替使用策略评估算法和策略改进算法求解给定环境的最优策略。

利用Banach不动点定理,可以用迭代的方法求解Bellman最优方程,得到最优价值估计。这就是价值迭代算法。可以用迭代得到的最优价值估计计算得到最优策略估计。

基于迭代的策略评估和最优价值估计都用到了动态规划方法和自益的思想。

传统动态规划的一次扫描需要对所有状态进行全面更新,这样会有不必要的计算。异步动态规划算法部分避免了这个缺陷。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。