人工神经网络之过程理解--损失函数与梯度下降的密切关系
优化器知识:[5分钟深度学习] #01 梯度下降算法_哔哩哔哩_bilibili
损失函数和优化器的联系,以及什么是反向传播算法:[5分钟深度学习] #02 反向传播算法_哔哩哔哩_bilibili
感知机和人工神经网络(多层感知机MLP)的区别
-
感知机:只有一层,为线性函数(线性层) ,之后再接入一个激活函数(固定且必须使用阶跃函数 (Step) 或 符号函数 (Sign) 作为激活函数。)
- 也就是说,单层感知机只能处理二分类问题
-
人工神经网络(多层感知机):绝不使用阶跃函数或符号函数作为隐藏层或输出层的激活函数!它必须使用连续、可导的非线性激活函数(如 Sigmoid, Tanh, ReLU 及其变体)。因为多层感知机,后面的感知机会受到前面感知机输出的影响,如果前面的感知机使用了阶跃函数 (Step) 或 符号函数 (Sign), 则后面的感知机只能接收到0,1,-1的输入,极大的影响网络的性能!!!(这样毫无意义)
因此人工神经网络(多层感知机)绝不使用阶跃函数或符号函数作为隐藏层或输出层的激活函数!
补充:
MLP 的输出层激活函数:
- 回归任务 (预测连续值): 线性激活函数 (
f(z) = z ) 或 ReLU (如果输出需非负)。 - 二分类任务: Sigmoid 函数 (输出一个 [0, 1] 的值,解释为属于正类的概率)。
- 多分类任务: Softmax 函数 (输出一个概率分布,所有可能类别的概率和为 1)。
- Tanh (Hyperbolic Tangent)
关于隐藏层的激活函数和输出层激活函数的选择方法(问deepseek):
问题:

回答:
图1:

图2:

损失函数
损失函数:用来衡量输入与输出之间的误差。(常见的有最小二乘法,交叉熵损失)
梯度下降算法(优化器)
优化器(梯度下降算法):用来调整神经网络中 和 参数,使得最终的神经网络图像最佳地拟合现实情况。(常见的即为adam优化器)
优化器中涉及到一个常见的参数,即学习率
学习率的作用是:控制 和 参数的调整速率。学习率 越大, 和 每一次变化幅度就越大;学习率 越小, 和 每一次变化幅度就越小。
然而 不应当过大或者过小。过大会导致 和 一直大幅度变化,从而无法达到最佳的中间值;过大会导致 和 变化太慢,训练速度实际长。
损失函数和梯度下降算法(优化器)的关系是什么?
关系:损失函数确定之后,再确定梯度算法
我们就可以分别求出 和 的调整函数,该函数的输入是x(输入值),y(经过神经网络后的输出值),y‘(实际值) 。
如下举例:
假设损失函数为最小二乘法,梯度下降算法为
对于梯度下降算法:
-
其中 为要调整的参数(即 或 )
-
为学习率
-
g为 (即 或 )的梯度。
- 因为输出的x一般都是向量/矩阵/张量形式,所以出来的y一般是向量形式,从而计算 的 梯度也是向量形式,所以 g 一般取所有梯度的平均值。
由上,可以得出 和 的调整函数

梯度我们是可以计算的,计算如下:

在这个例子中,
- 梯度表达式的自变量有:y , y_gt(真实值),x
- 梯度表达式的自变量有:y , y_gt(真实值)
得出 和 的梯度之后,我们带入到之前的调整函数,即带入到:

由此,我们就可以完整得出 和 的调整函数另一表现形式:
- <-
- <-
至此,我们只需要代入 $ y, y_{gt}, x$ 即可更新 和 的这两个参数的值了。
总结这个例子:
-
损失函数:
- 一用来表示输出值与实际值的误差(即损失值,编程上用loss表示)
- 二是提供了我们需要的参数 的梯度表达式,不同的损失函数,所提供的梯度表达式不同(所以要合理的选择损失函数)。(这个提供的梯度表达式就是精华)
-
梯度下降算法:通过代入损失函数提供的梯度表达式 到梯度下降算法中,得出参数 的调整函数(这个调整函数就是精华) **。**$ $
反向传播算法
反向传播算法:一种用于加速计算梯度的算法。(固定的算法)
常见的一些神经网络现象
-
梯度消失现象:某一层或几层神经网络的参数不再更新
-
梯度爆炸现象:线性单元输出过大,或是网络是循环结构,就会导致梯度累计超出计算机的数值上限。
-
神经元坏死(出现于Relu激活函数):当一个神经元永远输出 0(即对所有输入样本都满足
z = w·x + b ≤ 0),且梯度永远为 0,导致其权重无法更新时,该神经元就“死亡”(Dead Neuron)-
神经元坏死的数学原理:
- 假设某神经元权重为
w,偏置为b。 - 若初始化后
w和b使得对所有输入x都有z = w·x + b ≤ 0,则:
* 正向输出恒为 `0` → 对网络无贡献 * 反向梯度恒为 `0` → 权重更新公式 `w = w - η * 0 = w`(权重永远不变)- 结果:神经元永久失效,如同从网络中被移除。
- 假设某神经元权重为
-
- 点赞
- 收藏
- 关注作者
评论(0)