《强化学习:原理与Python实现 》 —3.1.3 Banach不动点定理
3.1.3 Banach不动点定理
对于度量空间上的映射,如果使得,则称是映射的不动点(fix point)。
例如,策略的状态价值函数()满足Bellman期望方程,是Bellman期望算子的不动点。最优状态价值()满足Bellman最优方程,是Bellman最优算子的不动点。
完备度量空间上的压缩映射有非常重要的结论:Banach不动点定理。Banach不动点定理(Banach fixed-point theorem,又称压缩映射定理,compressed mapping theorem)的内容是:是非空的完备度量空间,是一个压缩映射,则映射在内有且仅有一个不动点。更进一步,这个不动点可以通过下列方法求出:从内的任意一个元素开始,定义迭代序列(),这个序列收敛,且极限为。(证明:考虑任取的及其确定的列,我们可以证明它是Cauchy序列。对于任意的且,用距离的三角不等式和非负性可知,
再反复利用压缩映射可知,对于任意的正整数有,代入得:
由于,所以上述不等式右端可以任意小,得证。)
Banach不动点定理给出了求完备度量空间中压缩映射不动点的方法:从任意的起点开始,不断迭代使用压缩映射,最终就能收敛到不动点。并且在证明的过程中,还给出了收敛速度,即迭代正比于的速度收敛(其中是迭代次数)。在3.1.1节我们已经证明了是完备的度量空间,而3.1.2节又证明了Bellman期望算子和Bellman最优算子是压缩映射,那么就可以用迭代的方法求Bellman期望算子和Bellman最优算子的不动点。由于Bellman期望算子的不动点就是策略价值,Bellman最优算子的不动点就是最优价值,所以这就意味着我们可以用迭代的方法求得策略的价值或最优价值。在后面的小节中,我们就来具体看看求解的算法。
- 点赞
- 收藏
- 关注作者
评论(0)