《强化学习:原理与Python实现 》 —2.4.2 求解Bellman期望方程

举报
华章计算机 发表于 2019/11/13 11:07:47 2019/11/13
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第二章,第2.4.2节,作者肖智清。

2.4.2 求解Bellman期望方程

接下来考虑策略评估。我们用Bellman期望方程求解给定策略的状态价值和动作价值。首先来看状态价值。用状态价值表示状态价值的Bellmn期望方程为:

image.png

这是一个线性方程组,其标准形式为:

image.png

得到标准形式后就可以调用相关函数直接求解。得到状态价值函数后,可以用状态价值表示动作价值的Bellan期望方程:

image.png

来求动作价值函数。

代码清单2-6中的函数evaluate_bellman()实现了上述功能。状态价值求解部分用np.linalg.solve()函数求解标准形式的线性方程组。得到状态价值后,直接计算得到动作价值。

代码清单2-6 用Bellman方差求解状态价值和动作价值

image.png

接下来我们用代码清单2-6中的evaluate_bellman()函数评估给出的策略。代码清单2-7和代码清单2-8分别评估了一个随机策略和最优确定性策略,并输出了状态价值函数和动作价值函数。

代码清单2-7 评估随机策略

image.png

代码清单2-8 评估最优策略

image.png


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。