《深度学习:卷积神经网络从入门到精通》——2.18 动态规划算法

举报
华章计算机 发表于 2019/06/05 23:57:06 2019/06/05
【摘要】 本书摘自《深度学习:卷积神经网络从入门到精通》——书中第2章,第2.18节,作者是李玉鑑、张婷、单传辉、刘兆英等。

2.18 动态规划算法

动态规划(dynamic programming)是运筹学的一个分支,是求解多阶段决策过程(decision process)的最优化数学方法[108],其核心是贝尔曼最优化原理和贝尔曼方程。

如果用xt表示在t时刻的状态,用at∈Γ(xt)表示t时刻的行为,用F(xt, at)表示t时刻的收益,用xt + 1 = T(xt, at)表示下一时刻的新状态,用β表示折扣因子,那么一个从t = 0开始的无限时域决策问题可以描述最优估值函数V(x0)的数学模型:

image.png(2.108)

求解这个模型的关键在于采用贝尔曼最优化原理:如果{at}∞t = 0是从t = 0开始的全局最优行为策略,那么,{at}∞t = k一定是从t = k开始的全局最优行为策略。

根据这个最优化原理,不难得到下面的贝尔曼方程:

image.png(2.109)

其中,image.png



【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。