《深度学习:卷积神经网络从入门到精通》——2.16 随机梯度下降算法
【摘要】 本书摘自《深度学习:卷积神经网络从入门到精通》——书中第2章,第2.16节,作者是李玉鑑、张婷、单传辉、刘兆英等。
2.16 随机梯度下降算法
采用严格的反向传播算法训练神经网络,需要同时考虑所有样本对梯度的贡献。如果样本的数量很大,那么梯度下降的每一次迭代都可能花费很长时间,从而可能导致整个过程收敛得非常缓慢。
随机梯度下降(Stochastic Gradient Descent,SGD),或称为增量梯度下降(incremental gradient descent),是一种对梯度下降优化方法的随机近似。其应用条件是目标函数能够表示成一组可微函数之和。而神经网络刚好满足这个条件,所以可以应用随机梯度下降。对神经网络来说,随机梯度下降有两种基本模式:在线和迷你块(mini-batch)。在线模式是先把所有样本随机洗牌,再逐一计算每个样本对梯度的贡献去更新权值,即
随机梯度下降还有很多其他变种,主要包括Nesterov动量模式[103]、Adagrad[104]、Adadelta[105]、RMSProp[106]和Adam[107]等。Adam是目前最好的算法,在不知道如何选择时就选它。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)