梯度下降的相关数学概念

举报
黄生 发表于 2025/09/02 16:47:25 2025/09/02
【摘要】 导数是函数在某点的瞬时变化率,本质是极限。其名称源于“导引变化”之意。“导”指通过斜率(变化率)引导出函数的变化趋势。中文翻译来自拉丁语“derivare”(派生),体现从原函数“引出”新函数的含义。 常用于求切线斜率 ,分析函数增减性、极值,物理中描述速度、加速度等瞬时变化量等。微分是函数变化的线性部分dy=f′(x)dxdy = f'(x)dxdy=f′(x)dx,表示微小增量关系。先有...

导数是函数在某点的瞬时变化率,本质是极限。其名称源于“导引变化”之意。“导”指通过斜率(变化率)引导出函数的变化趋势。中文翻译来自拉丁语“derivare”(派生),体现从原函数“引出”新函数的含义。 常用于求切线斜率 ,分析函数增减性、极值,物理中描述速度、加速度等瞬时变化量等。

微分是函数变化的线性部分dy=f(x)dxdy = f'(x)dx,表示微小增量关系。先有导数(牛顿、莱布尼茨研究变化率),后完善微分(为严格定义导数而发展)。两者互为逆运算,微积分中密不可分。微分的本质仍是极限。简言之,微分是极限思想的局部线性化表达。

  1. 微分 dydy 是函数增量 Δy\Delta y线性主部(当 Δx0\Delta x \to 0 时,误差趋于0)。
  2. 通过导数 f(x)f'(x) 联系:dy=f(x)dxdy = f'(x) \cdot dx,而导数本身由极限定义。

导数相关符号

导数:莱布尼茨记法 dydx\frac{dy}{dx},拉格朗日记法 f(x)f'(x)

微分:dydy(函数增量线性主部),dxdx(自变量微分)

偏导数 ∂( curly d):用于多元函数,如 fx\frac{∂f}{∂x}

积分符号 ∫(拉长的 S):表示反导数运算

Δ\Delta(Delta)表示有限增量(如 Δx\Delta x 是x的有限变化量),而微分 dx,dydx, dy无限小的增量(极限下的线性近似)。

高阶无穷小(如 o(Δx)o(\Delta x))表示比 Δx\Delta x 更快趋于0的误差项。

链式求导:复合函数求导法则,形如 dydx=dydududx\frac{dy}{dx} = \frac{dy}{du} \cdot \frac{du}{dx},逐层拆解求导。

不同的希腊字母在特定领域形成了约定俗成的含义,看到符号就能立刻联想到其所在的数学语境。例如:

  • θ (theta) 常代表角度
  • λ (lambda) 代表特征值或波长
  • Σ (sigma) 代表求和
  • Δ (delta) 代表变化量或差分

下面说说梯度的由来

  1. 导数是“一维”的:传统导数(derivative)描述的是单变量函数在某一点的变化率(斜率)。比如函数 y = f(x),它的导数 f'(x) 告诉你当x变化时,y会如何变化。

  2. 梯度是“多维”的:AI模型有成万上亿个参数(变量)。损失函数 L 的输入不再是单一的 x,而是一个庞大的参数向量 θ = (θ₁, θ₂, ..., θₙ)。这时,我们需要一个工具能同时告诉我们这个函数在每个维度(每个参数) 上的变化率。

  3. 梯度就是这个工具梯度(Gradient) 就是一个向量,它由损失函数对所有参数分别求偏导数而组成:
    ∇L(θ) = [∂L/∂θ₁, ∂L/∂θ₂, ..., ∂L/∂θₙ]

    你可以把它想象成一个多维空间中的“指南针”它的方向指向了函数值上升最快的方向,它的大小(模) 表示了那个方向的坡度有多陡。

  4. AI模型的目标是最小化损失函数。既然梯度指向了上升最快的方向,那么它的反方向 -∇L(θ) 就自然指向了函数值下降最快的方向。梯度下降算法正是沿着这个反方向微小地更新参数,从而一步步找到函数的最低点(最小化损失)。

总结表:

概念 适用场景 本质
导数 单变量函数 (f(x)) 一个,表示该点的变化率(斜率)
偏导数 多变量函数 (f(x,y,z)) 某一个变量求导,而其他变量保持不变
梯度 多变量函数 (f(θ₁, θ₂, ...)) 一个向量,由所有偏导数组成,指向函数上升最快的方向

在AI领域,梯度可以被理解为高维空间中的导数“Gradient” 这个词源于拉丁语 “gradi”,意思是 “步行”“步进”。它后来被用来描述 “坡度”“倾斜度”。想象一座山,如果你站在山坡上,每个点都有一个 “最陡的上坡方向” 和相应的 “陡峭程度”梯度就是这个数学概念的精准描述。 梯度这个名字强调了函数的内在几何属性(像山一样的形状)。梯度由多个偏导数构成,它的威力在于这些分量的组合偏导数是标量,是坐标轴方向上的投影。∂f/∂x 只关心X方向的变化,忽略了其他所有维度。梯度是向量,是方向导数取得最大值的方向。它综合了所有偏导数的信息,通过向量合成,找到了一个全新的、最有意义的方向。这个方向通常不在任何坐标轴上

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。