《强化学习：原理与Python实现》 —2.3　最优策略及其性质

华章计算机发表于 2019/11/12 21:02:22 2019/11/12

【摘要】本节书摘来自华章计算机《强化学习：原理与Python实现》一书中第二章，第2.3.1节，作者肖智清。

2.3　最优策略及其性质

前一节我们为策略定义了价值函数。价值函数实际上给出了策略的一个偏序关系：对于两个策略和，如果对于任意，都，则称策略小于等于，记作。本节将基于这个偏序关系来定义最优策略，并考虑最优策略的性质和求解。

对于一个动力而言，总是存在着一个策略，使得所有的策略都小于等于这个策略。这时，策略就称为最优策略（optimal policy）。最优策略的价值函数称为最优价值函数。最优价值函数包括以下两种形式。

最优状态价值函数（optimal state value function），即

最优动作价值函数（optimal action value function），即

对于一个动力，可能存在多个最优策略。事实上，这些最优策略总是有相同的价值函数。所以，对于同时存在多个最优策略的情况，任取一个最优策略来考察不失一般性。其中一种选取方法是选择这样的确定性策略：

其中，如果有多个动作使得取得最大值，则任选一个动作即可。从这个角度看，只要求得了最优价值函数，就可以直接得到一个最优策略。所以，求解最优价值函数是一个值得关注的重要问题。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。