- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

什么是梯度如何理解梯度下降

晋红轻发表于 2026/04/29 22:40:22 2026/04/29

【摘要】本文讨论了梯度是什么，如何理解梯度下降

引言

初次接触梯度时，常会看到这样一句话：“梯度指向函数值增加最快的方向”。导数明明有正有负，为什么梯度就一定指向增加最快的方向，而不是减小最快的方向？下面我们从定义出发，结合一维与二维的例子，把梯度的直观含义彻底理清。

梯度的数学定义

定义
设多元函数 $f(x_1, x_2, \ldots, x_n)$ 在点 $\mathbf{x}$ 处可微，则它在该点的梯度记作 $\nabla f(\mathbf{x})$ ，是一个由所有一阶偏导数组成的向量：

$\nabla f(\mathbf{x}) = \begin{pmatrix} \frac{\partial f}{\partial x_1} & \frac{\partial f}{\partial x_2} & \cdots & \frac{\partial f}{\partial x_n} \end{pmatrix}$

该向量包含了函数在该点沿每个坐标轴方向的变化率。

虽然梯度由各坐标轴方向的变化率组成，但它本身作为一个向量，具有更深刻的几何意义：
梯度向量 $\nabla f(\mathbf{x})$ 指向函数值增加最快的方向，其长度就是沿该方向的变化率（最大的方向导数）。

于是，梯度可以自然地分解为「方向」与「变化率大小」的乘积。
设 $\nabla f(\mathbf{x}) \neq \mathbf{0}$ ，梯度向量的模长（长度）为：

$\|\nabla f(\mathbf{x})\| = \sqrt{ \left(\frac{\partial f}{\partial x_1}\right)^2 + \left(\frac{\partial f}{\partial x_2}\right)^2 + \cdots + \left(\frac{\partial f}{\partial x_n}\right)^2 } \neq 0$

此时：

方向（增长最快的单位方向向量）
将梯度向量除以它的模长，得到指向最速上升方向的单位向量：

$\mathbf{u}_{\text{max}} = \frac{\nabla f(\mathbf{x})}{\|\nabla f(\mathbf{x})\|} = \frac{1}{\sqrt{ \left(\frac{\partial f}{\partial x_1}\right)^2 + \left(\frac{\partial f}{\partial x_2}\right)^2 + \cdots + \left(\frac{\partial f}{\partial x_n}\right)^2 }} \begin{pmatrix} \frac{\partial f}{\partial x_1} & \frac{\partial f}{\partial x_2} & \cdots & \frac{\partial f}{\partial x_n} \end{pmatrix}$
变化率（沿该方向的方向导数，即最大的变化率）
这个最大变化率恰好就是梯度的模长：

$\text{最大变化率} = \|\nabla f(\mathbf{x})\|$

因此，梯度向量可以简洁地写成“变化率 × 方向”的形式：

$\nabla f(\mathbf{x}) = \|\nabla f(\mathbf{x})\| \; \mathbf{u}_{\text{max}}$

当 $\nabla f(\mathbf{x}) = \mathbf{0}$ 时，函数在该点沿任意方向的方向导数均为 $0$ ，此时没有唯一的最速上升方向，上述分解不适用。

一维函数例证

一维情形下，梯度退化为普通的导数。以 $f(x) = x^2$ 为例（图1）：

在 $x=2$ 处， $f'(2) = 4$ ，导数为正，表示函数沿 $x$ 轴正方向（向右）上升（图2）。
在 $x=-2$ 处， $f'(-2) = -4$ ，导数为负，表示函数沿 $x$ 轴负方向（向左）上升（图3）。

在一维中，导数的符号本身就指示了「使函数值增加的方向」。因此，沿着导数所指的方向移动，函数值总是增加的——这正是“梯度指向函数值增加最快的方向”在一维的体现。

二维函数例证

再来看一个二维函数 $f(x, y) = x^2 + y^2$ ，其图像为抛物面（图4）。

梯度为：

$\nabla f = \left( \frac{\partial f}{\partial x},\ \frac{\partial f}{\partial y} \right) = (2x,\ 2y)$

点 $(2, 2)$ 处

梯度： $\nabla f(2, 2) = (4, 4)$
方向（单位向量）： $\displaystyle \frac{(4, 4)}{\sqrt{4^2 + 4^2}} = \left( \frac{1}{\sqrt{2}},\ \frac{1}{\sqrt{2}} \right)$
变化率： $\|\nabla f\| = \sqrt{4^2 + 4^2} = 4\sqrt{2}$

也就是说，在 $(2,2)$ 处沿着 $(\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}})$ 方向（即右上方）移动，函数值增长最快（图5）。

点 $(-2, 2)$ 处

梯度： $\nabla f(-2, 2) = (-4, 4)$
方向（单位向量）： $\displaystyle \frac{(-4, 4)}{\sqrt{(-4)^2 + 4^2}} = \left( -\frac{1}{\sqrt{2}},\ \frac{1}{\sqrt{2}} \right)$
变化率： $\|\nabla f\| = 4\sqrt{2}$

在 $(-2,2)$ 处沿着 $(-\frac{1}{\sqrt{2}}, \frac{1}{\sqrt{2}})$ 方向（即左上方）移动，函数值增长最快（图6）。

这些例子直观验证了：无论在哪个点，梯度向量始终指向函数值增加最快的方向。

总结与梯度下降的联系

理解了“梯度指向函数值增加最快的方向”之后，在神经网络训练中的梯度下降就变得很自然：我们希望损失函数越来越小，自然就要朝梯度的 反方向 更新参数。

具体来说，假如损失函数为 $L$ ，参数为 $p$ ，则更新规则通常写作：

p.data = p.data - learning_rate * p.grad

或者

p.data += -learning_rate * p.grad

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

什么是梯度如何理解梯度下降

引言

梯度的数学定义

一维函数例证