《深度学习：卷积神经网络从入门到精通》——2.4　梯度下降算法

华章计算机发表于 2019/06/05 23:29:58 2019/06/05

【摘要】本书摘自《深度学习：卷积神经网络从入门到精通》——书中第2章，第2.4节，作者是李玉鑑、张婷、单传辉、刘兆英等。

2.4　梯度下降算法

梯度下降算法，又称为最速下降算法，是在无约束条件下计算连续可微函数极小值的基本方法。这种方法的核心思想是用负梯度方向作为下降方向，在1874年由法国科学家Cauchy提出。

设f(x)在xk附近连续可微，令x = xk + αd，其中d为单位方向（）。如果，则由Taylor展开式得

（2.44）

或改写为

（2.45）

设θ为d与-?gk之间的夹角，则有

（2.46）

不难看出，当θ = 0时，cos θ = 1，?取最小值，从而f(x)下降最快，此时d = -?gk。因此，负梯度方向-?gk就是函数f(x)在xk附近下降最快的方向。

根据上述分析，可以把计算函数f(x)的梯度下降算法总结为算法2.1。梯度下降算法一般都是线性收敛的，速度通常较慢。关于梯度下降算法的收敛性可参见文献[100]。

算法2.1　梯度下降算法

如果，其中G是n×n对称正定矩阵，最大和最小特征值分别是λ1和λn，那么梯度下降算法的收敛速度至少是线性的，且产生的点列{xk}对所有k满足

（2.47）

（2.48）

其中，x*是问题的唯一极小点。

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

上滑加载中

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。