《强化学习:原理与Python实现 》 —2.4.2 求解Bellman期望方程
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第二章,第2.4.2节,作者肖智清。
2.4.2 求解Bellman期望方程
接下来考虑策略评估。我们用Bellman期望方程求解给定策略的状态价值和动作价值。首先来看状态价值。用状态价值表示状态价值的Bellmn期望方程为:
这是一个线性方程组,其标准形式为:
得到标准形式后就可以调用相关函数直接求解。得到状态价值函数后,可以用状态价值表示动作价值的Bellan期望方程:
来求动作价值函数。
代码清单2-6中的函数evaluate_bellman()实现了上述功能。状态价值求解部分用np.linalg.solve()函数求解标准形式的线性方程组。得到状态价值后,直接计算得到动作价值。
代码清单2-6 用Bellman方差求解状态价值和动作价值
接下来我们用代码清单2-6中的evaluate_bellman()函数评估给出的策略。代码清单2-7和代码清单2-8分别评估了一个随机策略和最优确定性策略,并输出了状态价值函数和动作价值函数。
代码清单2-7 评估随机策略
代码清单2-8 评估最优策略
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)