强化学习(九)Deep Q-Learning进阶之Nature DQN
在强化学习(八)价值函数的近似表示与Deep Q-Learning中,我们讲到了Deep Q-Learning(NIPS 2013)的算法和代码,在这个算法基础上,有很多Deep Q-Learning(以下简称DQN)的改进版,今天我们来讨论DQN的第一个改进版Nature DQN(NIPS 2015)。
本章内容主要参考了ICML 2016的deep RL tutorial和Nature DQN的论文。
1. DQN(NIPS 2013)的问题
在上一篇我们已经讨论了DQN(NIPS 2013)的算法原理和代码实现,虽然它可以训练像CartPole这样的简单游戏,但是有很多问题。这里我们先讨论第一个问题。
注意到DQN(NIPS 2013)里面,我们使用的目标Q值的计算方式:
yj={RjRj+γmaxa′Q(ϕ(S′j),A′j,w)is_endjistrueis_endjisfalseyj={Rjis_endjistrueRj+γmaxa′Q(ϕ(Sj′),Aj′,w)is_endjisfalse
这里目标Q值的计算使用到了当前要训练的Q网络参数来计算Q(ϕ(S′j),A′j,w)Q(ϕ(Sj′),Aj′,w),而实际上,我们又希望通过yjyj来后续更新Q网络参数。这样两者循环依赖,迭代起来两者的相关性就太强了。不利于算法的收敛。
因此,一个改进版的DQN: Nature DQ
文章来源: wenyusuran.blog.csdn.net,作者:文宇肃然,版权归原作者所有,如需转载,请联系作者。
原文链接:wenyusuran.blog.csdn.net/article/details/97893047
- 点赞
- 收藏
- 关注作者
评论(0)