《强化学习:原理与Python实现 》 —3.1.2 压缩映射与Bellman算子

举报
华章计算机 发表于 2019/11/13 11:36:24 2019/11/13
【摘要】 本节书摘来自华章计算机《强化学习:原理与Python实现》 一书中第三章,第3.1.2节,作者肖智清。

3.1.2 压缩映射与Bellman算子

本节介绍压缩映射的定义,并证明Bellman期望算子和Bellman最优算子是度量空间上的压缩映射。

对于一个度量空间和其上的一个映射,如果存在某个实数,使得对于任意的,都有

image.png

则称映射是压缩映射(contraction mapping,或Lipschitzian mapping)。其中的实数被称为Lipschitz常数。

第2章中介绍了Bellman期望方程和Bellman最优方程。这两个方程都有用动作价值表示动作价值的形式。根据这个形式,我们可以为度量空间定义Bellman期望算子和Bellman最优算子。

给定策略()的Bellman期望算子:

image.png

Bellman最优算子:

image.png

下面我们就来证明,这两个算子都是压缩映射。

首先来看Bellman期望算子。由的定义可知,对任意的,有

image.png

所以

image.png

考虑到是任取的,所以有

image.png

当时,就是压缩映射。

接下来看Bellman最优算子。要证明是压缩映射,需要用到下列不等式:

image.png

其中和是任意的以为自变量的函数。(证明:设,则

 image.png

同理可证,于是不等式得证。)利用这个不等式,对任意的,有

image.png

进而易知,所以是压缩映射。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。