强化学习(十七) 基于模型的强化学习与Dyna算法框架
在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL),本篇我们讨论最后一种强化学习流派,基于模型的强化学习(Model Based RL),以及基于模型的强化学习算法框架Dyna。
本篇主要参考了UCL强化学习课程的第8讲和Dyna-2的论文。
1. 基于模型的强化学习简介
基于价值的强化学习模型和基于策略的强化学习模型都不是基于模型的,它们从价值函数,策略函数中直接去学习,不用学习环境的状态转化概率模型,即在状态ss下采取动作aa,转到下一个状态s′s′的概率Pass′Pss′a。
而基于模型的强化学习则会尝试从环境的模型去学习,一般是下面两个相互独立的模型:一个是状态转化预测模型,输入当前状态ss和动作aa,预测下一个状态s′s′。另一个是奖励预测模型,输入当前状态ss和动作aa,预测环境的奖励rr。即模型可以描述为下面两个式子:
St+1∼P(St+1|St,At)St+1∼P(St+1|St,At)
Rt+1∼R(Rt+1|St,At)Rt+1∼R(Rt+1|St,At)
如果模型P,RP,R可以准确的描述真正的环境的转化模型,那么我们就可以基于模型来预测,当有一个新的状态SS和动作AA到来时,我们可以直接基于模型预测得到新的状态和动作奖励,不需要和环境交互。当然如果我们的模型不好,那么基于模型预测的新状态和动作奖励可能错的离谱。
从上面的描述我们可以看出基于模型的强化学习和不基于模型的强化学习的主要区别ÿ
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/98057235
- 点赞
- 收藏
- 关注作者
评论(0)