《强化学习:原理与Python实现 》 —2.3.3 用Bellman最优方程求解最优策略
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第二章,第2.3.3节,作者肖智清。
2.3.3 用Bellman最优方程求解最优策略
在理论上,通过求解Bellman最优方程,就可以找到最优价值函数。一旦找到最优价值函数,就能很轻易地找到一个最优策略:对于每个状态,总是选择让最大的动作。
例如,对于表2-1的动力系统,我们已经通过分类讨论求得了Bellman最优方程。那么它的最优策略也可以通过分类讨论立即得到:
情况I:且,即且。这种情况的最优策略是
即一直不吃。
情况II:且,即且。这种情况的最优策略是
即饿了不吃,饱时吃。
情况III:且,即且。这种情况的最优策略是
即饿了吃,饱时不吃。
情况IV:且,即且。这种情况的最优策略是
即一直吃。
对于一个特定的数值,求解则更加明显。例如,当,,,2.3.2节已经求得了最优动作价值,此时最优动作价值满足且。所以,它对应的最优策略为
但是,实际使用Bellman最优方程求解最优策略可能会遇到下列困难。
难以列出Bellman最优方程。列出Bellman最优方程要求对动力系统完全了解,并且动力系统必须可以用有Markov性的Markov决策过程来建模。在实际问题中,环境往往十分复杂,很难非常周全地用概率模型完全建模。
难以求解Bellman最优方程。在实际问题中,状态空间往往非常巨大,状态空间和动作空间的组合更是巨大。这种情况下,没有足够的计算资源来求解Bellman最优方程。所以这时候会考虑采用间接的方法求解最优价值函数的值,甚至是近似值。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)