《强化学习:原理与Python实现 》 —2.3.3 用Bellman最优方程求解最优策略

举报
华章计算机 发表于 2019/11/12 21:13:56 2019/11/12
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第二章,第2.3.3节,作者肖智清。

2.3.3 用Bellman最优方程求解最优策略

在理论上,通过求解Bellman最优方程,就可以找到最优价值函数。一旦找到最优价值函数,就能很轻易地找到一个最优策略:对于每个状态,总是选择让最大的动作。

例如,对于表2-1的动力系统,我们已经通过分类讨论求得了Bellman最优方程。那么它的最优策略也可以通过分类讨论立即得到:

情况I:且,即且。这种情况的最优策略是

 image.png

即一直不吃。

情况II:且,即且。这种情况的最优策略是

 image.png

即饿了不吃,饱时吃。

情况III:且,即且。这种情况的最优策略是

 image.png

即饿了吃,饱时不吃。

情况IV:且,即且。这种情况的最优策略是

 image.png

即一直吃。

对于一个特定的数值,求解则更加明显。例如,当,,,2.3.2节已经求得了最优动作价值,此时最优动作价值满足且。所以,它对应的最优策略为

 image.png

但是,实际使用Bellman最优方程求解最优策略可能会遇到下列困难。

难以列出Bellman最优方程。列出Bellman最优方程要求对动力系统完全了解,并且动力系统必须可以用有Markov性的Markov决策过程来建模。在实际问题中,环境往往十分复杂,很难非常周全地用概率模型完全建模。

难以求解Bellman最优方程。在实际问题中,状态空间往往非常巨大,状态空间和动作空间的组合更是巨大。这种情况下,没有足够的计算资源来求解Bellman最优方程。所以这时候会考虑采用间接的方法求解最优价值函数的值,甚至是近似值。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。