- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

强化学习（三）用动态规划（DP）求解

格图洛书发表于 2021/12/29 23:35:19 2021/12/29

【摘要】　　在强化学习（二）马尔科夫决策过程(MDP)中，我们讨论了用马尔科夫假设来简化强化学习模型的复杂度，这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。　　　　动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲。 1. 动...

　　在强化学习（二）马尔科夫决策过程(MDP)中，我们讨论了用马尔科夫假设来简化强化学习模型的复杂度，这一篇我们在马尔科夫假设和贝尔曼方程的基础上讨论使用动态规划(Dynamic Programming, DP)来求解强化学习的问题。

　　　　动态规划这一篇对应Sutton书的第四章和UCL强化学习课程的第三讲。

1. 动态规划和强化学习问题的联系

　　　　对于动态规划，相信大家都很熟悉，很多使用算法的地方都会用到。就算是机器学习相关的算法，使用动态规划的也很多，比如之前讲到的隐马尔科夫模型HMM（二）前向后向算法评估观察序列概率，隐马尔科夫模型HMM（四）维特比算法解码隐藏状态序列，都是动态规划的典型例子。

　　　　动态规划的关键点有两个：一是问题的最优解可以由若干小问题的最优解构成，即通过寻找子问题的最优解来得到问题的最优解。第二是可以找到子问题状态之间的递推关系，通过较小的子问题状态递推出较大的子问题的状态。而强化学习的问题恰好是满足这两个条件的。

　　　　我们先看看强化学习的两个基本问题。

文章来源: wenyusuran.blog.csdn.net，作者：文宇肃然，版权归原作者所有，如需转载，请联系作者。

原文链接：wenyusuran.blog.csdn.net/article/details/97892712

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

强化学习（三）用动态规划（DP）求解

1. 动态规划和强化学习问题的联系

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

强化学习（三）用动态规划（DP）求解

1. 动态规划和强化学习问题的联系

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品