- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【深度学习】嘿马深度学习系统性知识教程第4篇：深度学习进阶,2.2 梯度下降算法改进【附代码文档】

程序员一诺python 发表于 2025/08/02 14:04:18 2025/08/02

【摘要】 4.1.4 GRU(门控循环单元) 4.1.5 LSTM(长短记忆网络) 循环神经网络 4.2 词嵌入与NLP 学习目标 4.2.2 词嵌入 4.2.3 Word2Vec案例 4.3 seq2seq与Attention机制 4.3.2 注意力机制 4.3.3 机器翻译案例 4.3.4 集束搜索（Beam Search） 4.3.5 BLEU-机器翻译的自动评估方法 5.1 生

教程总体简介：循环神经网络、4.2 词嵌入与NLP、学习目标、4.3 seq2seq与Attention机制、总结、每日作业、5.1 生成对抗网络(GAN)、高级主题、5.2 自动编码器、在职高新课-深度学习、要求、目标、课程安排、环境要求、1.1 深度学习介绍、深度学习与神经网络、1.2 神经网络基础、1.3 浅层神经网络、1.4 深层神经网络、深度学习进阶、2.1 多分类与TensorFlow、5、得出每次训练的准确率（通过真实值和预测值进行位置比较、每个样本都比较）、2.2 梯度下降算法改进、2.3 深度学习正则化、2.4 BN与神经网络调优、卷积神经网络、3.1 图像数据与边缘检测、3.2 卷积神经网络(CNN)原理、3.3 经典分类网络结构、4.1 循环神经网络、课程内容总结

项目完整code和文档，小伙伴们---->git仓库

全套教程部分目录：

深度学习进阶

知道softmax回归的原理
应用softmax_cross_entropy_with_logits实现softamx以及交叉熵损失计算
应用matmul实现多隐层神经网络的计算
应用TensorFlow完成Mnist手写数字势识别

了解深度学习遇到的一些问题
知道批梯度下降与MiniBatch梯度下降的区别
知道指数加权平均的意义
知道动量梯度、RMSProp、Adam算法的公式意义
知道学习率衰减方式
知道参数初始化策略的意义

了解偏差与方差的意义
知道L2正则化与L1正则化的数学意义
知道Droupout正则化的方法
了解早停止法、数据增强法的其它正则化方式

知道常用的一些神经网络超参数
知道BN层的意义以及数学原理

2.2 梯度下降算法改进

学习目标

目标
了解深度学习遇到的一些问题
知道批梯度下降与MiniBatch梯度下降的区别
知道指数加权平均的意义
知道动量梯度、RMSProp、Adam算法的公式意义
知道学习率衰减方式
知道参数初始化策略的意义
应用
无

深度学习难以在大数据领域发挥最大效果的一个原因是，在巨大的数据集基础上进行训练速度很慢。而优化算法能够帮助我们快速训练模型，提高计算效率。接下来我么就去看有哪些方法能够解决我们刚才遇到的问题或者类似的问题

2.2.1 优化遇到的问题

梯度消失
局部最优

2.2.1.1 梯度消失

在梯度函数上出现的以指数级递增或者递减的情况分别称为梯度爆炸或者梯度消失。

假设g(z)=z,b[l]=0g(z) = z, b^{[l]} = 0g(z)=z,b[l]=0y^=W[L]W[L−1]...W[2]W[1]X\hat{y} = W^{[L]}W^{[L-1]}...W^{[2]}W^{[1]}Xy^=W[L]W[L−1]...W[2]W[1]X

对于W[l]W^{[l]}W[l]
对于W[l]W^{[l]}W[l]

在计算梯度时，根据不同情况梯度函数也会以指数级递增或递减，导致训练导数难度上升，梯度下降算法的步长会变得非常小，需要训练的时间将会非常长。

2.2.1.2 局部最优

鞍点（saddle）是函数上的导数为零，但不是轴上局部极值的点。通常梯度为零的点是上图所示的鞍点，而非局部最小值。减少损失的难度也来自误差曲面中的鞍点，而不是局部最低点。

在训练较大的神经网络、存在大量参数，并且成本函数被定义在较高的维度空间时，困在极差的局部最优基本不会发生
鞍点附近的平稳段会使得学习非常缓慢，而这也是需要后面的动量梯度下降法、RMSProp 以及 Adam 优化算法能够加速学习的原因，它们能帮助尽早走出平稳段。

解决办法有多种形式,通常会结合一些形式一起进行

初始化参数策略（第一部分第四节提到）
Mini梯度下降法
梯度下降算法的优化
学习率衰减

2.2.2 参数初始化策略（复习）

由于在z=w1x1+w2x2+...+wnxn+bz={w}_1{x}_1+{w}_2{x}_2 + ... + {w}_n{x}_n + bz=w1x1+w2x2+...+wnxn+bwiw_iwizzz

2.2.3 批梯度下降算法（Batch Gradient Descent）

定义：批梯度下降法(btach)，即同时处理整个训练集。

其在更新参数时使用所有的样本来进行更新。对整个训练集进行梯度下降法的时候，我们必须处理整个训练数据集，然后才能进行一步梯度下降，即每一步梯度下降法需要对整个训练集进行一次处理，如果训练数据集很大的时候，处理速度就会比较慢。

所以换一种方式，每次处理训练数据的一部分进行梯度下降法，则我们的算法速度会执行的更快。

2.2.3.1 Mini-Batch Gradient Descent

定义：Mini-Batch 梯度下降法（小批量梯度下降法）每次同时处理固定大小的数据集。

不同

种类：
mini-batch 的大小为 1，即是随机梯度下降法（stochastic gradient descent）

使用 Mini-Batch 梯度下降法，对整个训练集的一次遍历(epoch)只做 mini-batch个样本的梯度下降，一直循环整个训练集。

2.2.3.2 批梯度下降与Mini-Batch梯度下降的区别

batch梯度下降法和Mini-batch 梯度下降法代价函数的变化趋势如下：

那么对于梯度下降优化带来的影响

2.2.3.3 梯度下降优化影响

batch 梯度下降法：
对所有 m 个训练样本执行一次梯度下降，每一次迭代时间较长，训练过程慢；
相对噪声低一些，成本函数总是向减小的方向下降。
随机梯度下降法(Mini-Batch=1)：
对每一个训练样本执行一次梯度下降，训练速度快，但丢失了向量化带来的计算加速；
有很多噪声，需要适当减小学习率，成本函数总体趋势向全局最小值靠近，但永远不会收敛，而是一直在最小值附近波动。

因此，选择一个合适的大小进行 Mini-batch 梯度下降，可以实现快速学习，也应用了向量化带来的好处，且成本函数的下降处于前两者之间。

2.2.3.4 大小选择

如果训练样本的大小比较小，如m≤2000m\le2000m≤2000
如果训练样本的大小比较大，选择 Mini-Batch 梯度下降法。为了和计算机的信息存储方式相适应，代码在 mini-batch 大小为 2 的幂次时运行要快一些。典型的大小为26,27,28,292^6, 2^7,2^8,2^926,27,28,29

需要根据经验快速尝试，找到能够最有效地减少成本函数的值。

那么第二种方式是通过优化梯度下降过程，会比梯度下降算法的速度更快些

2.2.4 指数加权平均

指数加权平均（Exponentially Weight Average）是一种常用的序列数据处理方式，通常用在序列场景如金融序列分析、温度变化序列分析。

假设给定一个序列，例如北京一年每天的气温值，图中蓝色的点代表真实数据。

那么这样的气温值变化可以理解成优化的过程波动较大，异常较多。那么怎么平缓一些呢，这时候就要用到加权平均值了，如指数加权平均值。首先看一些效果。

这条红线怎么计算出来？通过指数加权的公式即：

无法显示

其中YtY_{t}YtStS_{t}Stβ\betaβ

上图的红线中，β\betaβS1=Y1S_{1} = Y1S1=Y1

S2=0.9S1+0.1Y2S_{2} = 0.9 S_{1} + 0.1 Y_{2}S2=0.9S1+0.1Y2

.........

S99=0.9S98+0.1Y99S_{99} = 0.9 S_{98} + 0.1 Y_{99}S99=0.9S98+0.1Y99

S100=0.9S99+0.1Y100S_{100} = 0.9 S_{99} + 0.1 Y_{100}S100=0.9S99+0.1Y100

.........

假设就100天，那么合并的结果S100=0.1Y100+0.1∗0.9Y99+0.1∗(0.9)2Y98+...S_{100} = 0.1 Y_{100} + 0.1 * 0.9 Y_{99} + 0.1 * {(0.9)}^2 Y_{98} + {...}S100=0.1Y100+0.1∗0.9Y99+0.1∗(0.9)2Y98+...

下图中，当取权重值 β=0.98 时，可以得到图中更为平滑的绿色曲线。而当取权重值β\betaββ\betaβ，曲线自然就会越平滑而且越滞后。这些系数被称作偏差修正（Bias Correction）**

上述点数据，我们是否可以理解成梯度下降的过程，每一迭代优化计算出来的梯度值，

2.2.5 动量梯度下降法

动量梯度下降（Gradient Descent with Momentum）是计算梯度的指数加权平均数，并利用该值来更新参数值。动量梯度下降法的整个过程为：

SdW[l]=βSdW[l]+(1−β)dW[l]S_{dW^{[l]}} = \beta S_{dW^{[l]}} + (1 - \beta) dW^{[l]}SdW[l]=βSdW[l]+(1−β)dW[l]

Sdb[l]=βSdb[l]+(1−β)db[l]S_{db^{[l]}} = \beta S_{db^{[l]}} + (1 - \beta) db^{[l]}Sdb[l]=βSdb[l]+(1−β)db[l]

W[l]:=W[l]−αSdW[l]W^{[l]} := W^{[l]} - \alpha S_{dW^{[l]}}W[l]:=W[l]−αSdW[l]

b[l]:=b[l]−αSdb[l]b^{[l]} := b^{[l]} - \alpha S_{db^{[l]}}b[l]:=b[l]−αSdb[l]

那么这样梯度下降过程会有什么变化，如下图所示：

使用动量梯度下降时，通过累加过去的梯度值来减少抵达最小值路径上的波动，加速了收敛，因此在横轴方向下降得更快，从而得到图中红色或者紫色的曲线。当前后梯度方向一致时，动量梯度下降能够加速学习；而前后梯度方向不一致时，动量梯度下降能够抑制震荡。

我们可以这样形象的理解，小球在向下运动过程中会有加速度，导致越来越快，由于β\betaβ

2.2.6 RMSProp 算法

RMSProp（Root Mean Square Prop）算法是在对梯度进行指数加权平均的基础上，引入平方和平方根。

sdw=βsdw+(1−β)(dw)2s_{dw} = \beta s_{dw} + (1 - \beta)(dw)^2sdw=βsdw+(1−β)(dw)2

sdb=βsdb+(1−β)(db)2s_{db} = \beta s_{db} + (1 - \beta)(db)^2sdb=βsdb+(1−β)(db)2

w:=w−αdwsdw+ϵw := w - \alpha \frac{dw}{\sqrt{s_{dw} + \epsilon}}w:=w−α√sdw+ϵdw

b:=b−αdbsdb+ϵb := b - \alpha \frac{db}{\sqrt{s_{db} + \epsilon}}b:=b−α√sdb+ϵdb

其中ϵ\epsilonϵ(dw)2,(db)2(dw)^{2}, (db)^{2}(dw)2,(db)2<s

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入