《深度学习:卷积神经网络从入门到精通》——2.4 梯度下降算法

举报
华章计算机 发表于 2019/06/05 23:29:58 2019/06/05
【摘要】 本书摘自《深度学习:卷积神经网络从入门到精通》——书中第2章,第2.4节,作者是李玉鑑、张婷、单传辉、刘兆英等。

2.4 梯度下降算法

梯度下降算法,又称为最速下降算法,是在无约束条件下计算连续可微函数极小值的基本方法。这种方法的核心思想是用负梯度方向作为下降方向,在1874年由法国科学家Cauchy提出。

设f(x)在xk附近连续可微,令x = xk + αd,其中d为单位方向()。如果,则由Taylor展开式得

image.png(2.44)

或改写为

image.png(2.45)

设θ为d与-?gk之间的夹角,则有

image.png(2.46)

不难看出,当θ = 0时,cos θ = 1,?取最小值,从而f(x)下降最快,此时d = -?gk。因此,负梯度方向-?gk就是函数f(x)在xk附近下降最快的方向。

根据上述分析,可以把计算函数f(x)的梯度下降算法总结为算法2.1。梯度下降算法一般都是线性收敛的,速度通常较慢。关于梯度下降算法的收敛性可参见文献[100]。

算法2.1 梯度下降算法

image.png

如果,其中G是n×n对称正定矩阵,最大和最小特征值分别是λ1和λn,那么梯度下降算法的收敛速度至少是线性的,且产生的点列{xk}对所有k满足

image.png(2.47)

                                            (2.48)

其中,x*是问题的唯一极小点。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。