《深度学习:卷积神经网络从入门到精通》——2.16 随机梯度下降算法

举报
华章计算机 发表于 2019/06/05 23:53:48 2019/06/05
【摘要】 本书摘自《深度学习:卷积神经网络从入门到精通》——书中第2章,第2.16节,作者是李玉鑑、张婷、单传辉、刘兆英等。

2.16 随机梯度下降算法

采用严格的反向传播算法训练神经网络,需要同时考虑所有样本对梯度的贡献。如果样本的数量很大,那么梯度下降的每一次迭代都可能花费很长时间,从而可能导致整个过程收敛得非常缓慢。

随机梯度下降(Stochastic Gradient Descent,SGD),或称为增量梯度下降(incremental gradient descent),是一种对梯度下降优化方法的随机近似。其应用条件是目标函数能够表示成一组可微函数之和。而神经网络刚好满足这个条件,所以可以应用随机梯度下降。对神经网络来说,随机梯度下降有两种基本模式:在线和迷你块(mini-batch)。在线模式是先把所有样本随机洗牌,再逐一计算每个样本对梯度的贡献去更新权值,即

image.png

随机梯度下降还有很多其他变种,主要包括Nesterov动量模式[103]、Adagrad[104]、Adadelta[105]、RMSProp[106]和Adam[107]等。Adam是目前最好的算法,在不知道如何选择时就选它。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。