《深度学习：卷积神经网络从入门到精通》——2.18　动态规划算法

华章计算机发表于 2019/06/05 23:57:06 2019/06/05

【摘要】本书摘自《深度学习：卷积神经网络从入门到精通》——书中第2章，第2.18节，作者是李玉鑑、张婷、单传辉、刘兆英等。

2.18　动态规划算法

动态规划（dynamic programming）是运筹学的一个分支，是求解多阶段决策过程（decision process）的最优化数学方法[108]，其核心是贝尔曼最优化原理和贝尔曼方程。

如果用xt表示在t时刻的状态，用at∈Γ(xt)表示t时刻的行为，用F(xt, at)表示t时刻的收益，用xt + 1 = T(xt, at)表示下一时刻的新状态，用β表示折扣因子，那么一个从t = 0开始的无限时域决策问题可以描述最优估值函数V(x0)的数学模型：

（2.108）

求解这个模型的关键在于采用贝尔曼最优化原理：如果{at}∞t = 0是从t = 0开始的全局最优行为策略，那么，{at}∞t = k一定是从t = k开始的全局最优行为策略。

根据这个最优化原理，不难得到下面的贝尔曼方程：

（2.109）

其中，。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。