《强化学习:原理与Python实现 》 —2.5 本章小结
2.5 本章小结
本章介绍了强化学习最重要的数学模型:Markov决策模型。Markov决策模型用动力系统来描述环境,用策略来描述智能体。本章还介绍了策略的价值函数和最优策略的最优价值函数。理论上,价值函数和最优价值函数可以通过Bellman期望方程和Bellman最优方程求解。但是在实际问题中,Bellman期望方程和Bellman最优方程往往难以获得或难以求解。在后续的章节中,将给出解决这些问题的方法。
本章要点
在完全可观测的离散时间智能体/环境接口中引入概率和Markov性,可以得到Markov决策过程。
在Markov决策过程中,是状态空间(包括终止状态的状态空间为),是动作空间,是奖励空间,是动力。表示从状态和动作到状态和奖励的转移概率。是策略。表示在状态决定执行动作的概率。
回报是未来奖励的和,奖励按折扣因子进行折扣。
对于一个策略,在某个状态下的期望回报称为状态价值,在某个状态动作对下的期望回报称为动作价值。
状态价值和动作价值满足Bellman期望方程:
用状态价值函数可以定义策略的偏序关系。对于一个环境,如果所有策略都小于等于某个策略,则称是一个最优策略。
任何环境都存在最优策略。一个环境的所有最优策略有着相同的状态价值和动作价值,分别称为最优状态价值(记为)和最优动作价值(记为)。
最优状态价值和最优动作价值满足Bellman最优方程:
可以应用下列线性规划求解最优动作价值:
用Bellman最优方程求解出最优价值后,可以用
确定出一个确定性的最优策略。其中,对于某个,如果有多个动作值使得取得最大值,则任选一个动作即可。
- 点赞
- 收藏
- 关注作者
评论(0)