《深度学习:卷积神经网络从入门到精通》——2.4 梯度下降算法
【摘要】 本书摘自《深度学习:卷积神经网络从入门到精通》——书中第2章,第2.4节,作者是李玉鑑、张婷、单传辉、刘兆英等。
2.4 梯度下降算法
梯度下降算法,又称为最速下降算法,是在无约束条件下计算连续可微函数极小值的基本方法。这种方法的核心思想是用负梯度方向作为下降方向,在1874年由法国科学家Cauchy提出。
设f(x)在xk附近连续可微,令x = xk + αd,其中d为单位方向()。如果,则由Taylor展开式得
(2.44)
或改写为
(2.45)
设θ为d与-?gk之间的夹角,则有
(2.46)
不难看出,当θ = 0时,cos θ = 1,?取最小值,从而f(x)下降最快,此时d = -?gk。因此,负梯度方向-?gk就是函数f(x)在xk附近下降最快的方向。
根据上述分析,可以把计算函数f(x)的梯度下降算法总结为算法2.1。梯度下降算法一般都是线性收敛的,速度通常较慢。关于梯度下降算法的收敛性可参见文献[100]。
算法2.1 梯度下降算法
如果,其中G是n×n对称正定矩阵,最大和最小特征值分别是λ1和λn,那么梯度下降算法的收敛速度至少是线性的,且产生的点列{xk}对所有k满足
(2.47)
(2.48)
其中,x*是问题的唯一极小点。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)