强化学习(四)用蒙特卡罗法(MC)求解

举报
格图洛书 发表于 2021/12/30 00:53:16 2021/12/30
【摘要】   在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型PP都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题...

  在强化学习(三)用动态规划(DP)求解中,我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时,回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候,我们连环境的状态转化模型PP都无法知道,这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢?本文要讨论的蒙特卡罗(Monte-Calo, MC)就是一种可行的方法。

    蒙特卡罗法这一篇对应Sutton书的第五章和UCL强化学习课程的第四讲部分,第五讲部分。

1. 不基于模型的强化学习问题定义

    在动态规划法中,强化学习的两个问题是这样定义的:

    预测问题,即给定强化学习的6个要素:状态集SS, 动作集AA, 模型状态转化概率矩阵PP, 即时奖励RR,衰减因子γγ,  给定策略ππ, 求解该策略的状态价值函数v(π)v(π)

    控制问题,也就是求解最优的价值函数和策略。给定强化学习的5个要素:状态集SS, 动作集AA, 模型状态转化概率矩阵PP, 即时奖励RR,衰减因子γγ, 求解最优的状态价值函数v∗v∗和最优策略π∗π∗ 

    可见, 模型状态转化概率矩阵PP始终是已知的,即MDP已知,对于这样的强化学习问题,我们一般称为基于模型的强化学习问题。

    不过有很多强化学习问题,我们没有办法事先得到模型状态转化概率矩阵PP,这时如果仍然需要我们求解强化学习问题,那么这就是不基于模型的强化学习问题了。它的两个问题一般的定义是:    

 

文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。

原文链接:wenyusuran.blog.csdn.net/article/details/97892773

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。