《强化学习:原理与Python实现 》 —3.1.2 压缩映射与Bellman算子
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第三章,第3.1.2节,作者肖智清。
3.1.2 压缩映射与Bellman算子
本节介绍压缩映射的定义,并证明Bellman期望算子和Bellman最优算子是度量空间上的压缩映射。
对于一个度量空间和其上的一个映射,如果存在某个实数,使得对于任意的,都有
则称映射是压缩映射(contraction mapping,或Lipschitzian mapping)。其中的实数被称为Lipschitz常数。
第2章中介绍了Bellman期望方程和Bellman最优方程。这两个方程都有用动作价值表示动作价值的形式。根据这个形式,我们可以为度量空间定义Bellman期望算子和Bellman最优算子。
给定策略()的Bellman期望算子:
Bellman最优算子:
下面我们就来证明,这两个算子都是压缩映射。
首先来看Bellman期望算子。由的定义可知,对任意的,有
所以
考虑到是任取的,所以有
当时,就是压缩映射。
接下来看Bellman最优算子。要证明是压缩映射,需要用到下列不等式:
其中和是任意的以为自变量的函数。(证明:设,则
同理可证,于是不等式得证。)利用这个不等式,对任意的,有
进而易知,所以是压缩映射。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)