梯度下降的相关数学概念
导数是函数在某点的瞬时变化率,本质是极限。其名称源于“导引变化”之意。“导”指通过斜率(变化率)引导出函数的变化趋势。中文翻译来自拉丁语“derivare”(派生),体现从原函数“引出”新函数的含义。 常用于求切线斜率 ,分析函数增减性、极值,物理中描述速度、加速度等瞬时变化量等。
微分是函数变化的线性部分,表示微小增量关系。先有导数(牛顿、莱布尼茨研究变化率),后完善微分(为严格定义导数而发展)。两者互为逆运算,微积分中密不可分。微分的本质仍是极限。简言之,微分是极限思想的局部线性化表达。
- 微分 是函数增量 的线性主部(当 时,误差趋于0)。
- 通过导数 联系:,而导数本身由极限定义。
导数相关符号:
导数:莱布尼茨记法 ,拉格朗日记法
微分:(函数增量线性主部),(自变量微分)
偏导数 ∂( curly d):用于多元函数,如
积分符号 ∫(拉长的 S):表示反导数运算
(Delta)表示有限增量(如 是x的有限变化量),而微分 是无限小的增量(极限下的线性近似)。
高阶无穷小(如 )表示比 更快趋于0的误差项。
链式求导:复合函数求导法则,形如 ,逐层拆解求导。
不同的希腊字母在特定领域形成了约定俗成的含义,看到符号就能立刻联想到其所在的数学语境。例如:
- θ (theta) 常代表角度
- λ (lambda) 代表特征值或波长
- Σ (sigma) 代表求和
- Δ (delta) 代表变化量或差分
下面说说梯度的由来
-
导数是“一维”的:传统导数(derivative)描述的是单变量函数在某一点的变化率(斜率)。比如函数
y = f(x)
,它的导数f'(x)
告诉你当x变化时,y会如何变化。 -
梯度是“多维”的:AI模型有成万上亿个参数(变量)。损失函数
L
的输入不再是单一的x
,而是一个庞大的参数向量θ = (θ₁, θ₂, ..., θₙ)
。这时,我们需要一个工具能同时告诉我们这个函数在每个维度(每个参数) 上的变化率。 -
梯度就是这个工具。梯度(Gradient) 就是一个向量,它由损失函数对所有参数分别求偏导数而组成:
∇L(θ) = [∂L/∂θ₁, ∂L/∂θ₂, ..., ∂L/∂θₙ]
你可以把它想象成一个多维空间中的“指南针”,它的方向指向了函数值上升最快的方向,它的大小(模) 表示了那个方向的坡度有多陡。
-
AI模型的目标是最小化损失函数。既然梯度指向了上升最快的方向,那么它的反方向
-∇L(θ)
就自然指向了函数值下降最快的方向。梯度下降算法正是沿着这个反方向微小地更新参数,从而一步步找到函数的最低点(最小化损失)。
总结表:
概念 | 适用场景 | 本质 |
---|---|---|
导数 | 单变量函数 (f(x) ) |
一个数,表示该点的变化率(斜率) |
偏导数 | 多变量函数 (f(x,y,z) ) |
对某一个变量求导,而其他变量保持不变 |
梯度 | 多变量函数 (f(θ₁, θ₂, ...) ) |
一个向量,由所有偏导数组成,指向函数上升最快的方向 |
在AI领域,梯度可以被理解为高维空间中的导数。“Gradient” 这个词源于拉丁语 “gradi”,意思是 “步行”或 “步进”。它后来被用来描述 “坡度”、“倾斜度”。想象一座山,如果你站在山坡上,每个点都有一个 “最陡的上坡方向” 和相应的 “陡峭程度”。梯度就是这个数学概念的精准描述。 梯度这个名字强调了函数的内在几何属性(像山一样的形状)。梯度由多个偏导数构成,它的威力在于这些分量的组合。偏导数是标量,是坐标轴方向上的投影。∂f/∂x
只关心X方向的变化,忽略了其他所有维度。梯度是向量,是方向导数取得最大值的方向。它综合了所有偏导数的信息,通过向量合成,找到了一个全新的、最有意义的方向。这个方向通常不在任何坐标轴上。
- 点赞
- 收藏
- 关注作者
评论(0)