《强化学习:原理与Python实现 》 —2.3 最优策略及其性质

举报
华章计算机 发表于 2019/11/12 21:02:22 2019/11/12
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第二章,第2.3.1节,作者肖智清。

2.3 最优策略及其性质

前一节我们为策略定义了价值函数。价值函数实际上给出了策略的一个偏序关系:对于两个策略和,如果对于任意,都,则称策略小于等于,记作。本节将基于这个偏序关系来定义最优策略,并考虑最优策略的性质和求解。

2.3.1 最优策略与最优价值函数

对于一个动力而言,总是存在着一个策略,使得所有的策略都小于等于这个策略。这时,策略就称为最优策略(optimal policy)。最优策略的价值函数称为最优价值函数。最优价值函数包括以下两种形式。

最优状态价值函数(optimal state value function),即

image.png

最优动作价值函数(optimal action value function),即

image.png

对于一个动力,可能存在多个最优策略。事实上,这些最优策略总是有相同的价值函数。所以,对于同时存在多个最优策略的情况,任取一个最优策略来考察不失一般性。其中一种选取方法是选择这样的确定性策略:

image.png

其中,如果有多个动作使得取得最大值,则任选一个动作即可。从这个角度看,只要求得了最优价值函数,就可以直接得到一个最优策略。所以,求解最优价值函数是一个值得关注的重要问题。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。