《强化学习:原理与Python实现 》 —2.3 最优策略及其性质
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第二章,第2.3.1节,作者肖智清。
2.3 最优策略及其性质
前一节我们为策略定义了价值函数。价值函数实际上给出了策略的一个偏序关系:对于两个策略和,如果对于任意,都,则称策略小于等于,记作。本节将基于这个偏序关系来定义最优策略,并考虑最优策略的性质和求解。
2.3.1 最优策略与最优价值函数
对于一个动力而言,总是存在着一个策略,使得所有的策略都小于等于这个策略。这时,策略就称为最优策略(optimal policy)。最优策略的价值函数称为最优价值函数。最优价值函数包括以下两种形式。
最优状态价值函数(optimal state value function),即
最优动作价值函数(optimal action value function),即
对于一个动力,可能存在多个最优策略。事实上,这些最优策略总是有相同的价值函数。所以,对于同时存在多个最优策略的情况,任取一个最优策略来考察不失一般性。其中一种选取方法是选择这样的确定性策略:
其中,如果有多个动作使得取得最大值,则任选一个动作即可。从这个角度看,只要求得了最优价值函数,就可以直接得到一个最优策略。所以,求解最优价值函数是一个值得关注的重要问题。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)