《强化学习:原理与Python实现 》 —2.5 本章小结

举报
华章计算机 发表于 2019/11/13 11:17:46 2019/11/13
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第二章,第2.5节,作者肖智清。

2.5 本章小结

本章介绍了强化学习最重要的数学模型:Markov决策模型。Markov决策模型用动力系统来描述环境,用策略来描述智能体。本章还介绍了策略的价值函数和最优策略的最优价值函数。理论上,价值函数和最优价值函数可以通过Bellman期望方程和Bellman最优方程求解。但是在实际问题中,Bellman期望方程和Bellman最优方程往往难以获得或难以求解。在后续的章节中,将给出解决这些问题的方法。

本章要点

在完全可观测的离散时间智能体/环境接口中引入概率和Markov性,可以得到Markov决策过程。

在Markov决策过程中,是状态空间(包括终止状态的状态空间为),是动作空间,是奖励空间,是动力。表示从状态和动作到状态和奖励的转移概率。是策略。表示在状态决定执行动作的概率。

回报是未来奖励的和,奖励按折扣因子进行折扣。

对于一个策略,在某个状态下的期望回报称为状态价值,在某个状态动作对下的期望回报称为动作价值。

状态价值和动作价值满足Bellman期望方程:

 image.png

用状态价值函数可以定义策略的偏序关系。对于一个环境,如果所有策略都小于等于某个策略,则称是一个最优策略。

任何环境都存在最优策略。一个环境的所有最优策略有着相同的状态价值和动作价值,分别称为最优状态价值(记为)和最优动作价值(记为)。

最优状态价值和最优动作价值满足Bellman最优方程:

 image.png

可以应用下列线性规划求解最优动作价值:

 image.png

用Bellman最优方程求解出最优价值后,可以用

 image.png

确定出一个确定性的最优策略。其中,对于某个,如果有多个动作值使得取得最大值,则任选一个动作即可。

 


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。