《深度学习:卷积神经网络从入门到精通》——2.18 动态规划算法
【摘要】 本书摘自《深度学习:卷积神经网络从入门到精通》——书中第2章,第2.18节,作者是李玉鑑、张婷、单传辉、刘兆英等。
2.18 动态规划算法
动态规划(dynamic programming)是运筹学的一个分支,是求解多阶段决策过程(decision process)的最优化数学方法[108],其核心是贝尔曼最优化原理和贝尔曼方程。
如果用xt表示在t时刻的状态,用at∈Γ(xt)表示t时刻的行为,用F(xt, at)表示t时刻的收益,用xt + 1 = T(xt, at)表示下一时刻的新状态,用β表示折扣因子,那么一个从t = 0开始的无限时域决策问题可以描述最优估值函数V(x0)的数学模型:
(2.108)
求解这个模型的关键在于采用贝尔曼最优化原理:如果{at}∞t = 0是从t = 0开始的全局最优行为策略,那么,{at}∞t = k一定是从t = k开始的全局最优行为策略。
根据这个最优化原理,不难得到下面的贝尔曼方程:
(2.109)
其中,。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)