- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

损失函数与优化器

林欣发表于 2025/11/22 23:22:16 2025/11/22

【摘要】损失函数（Loss Function）和优化器（Optimizer）是机器学习和深度学习中的两个核心概念，它们共同决定了模型的训练过程和性能。以下是它们的详细解释及关系：一、损失函数（Loss Function）定义：损失函数用于衡量模型预测值与真实值之间的差异（误差），其目标是通过最小化损失函数来优化模型参数。 1. 常见损失函数类型回归任务：均方误差（MSE, Mean Squared...

损失函数（Loss Function）和优化器（Optimizer）是机器学习和深度学习中的两个核心概念，它们共同决定了模型的训练过程和性能。以下是它们的详细解释及关系：

一、损失函数（Loss Function）

定义：损失函数用于衡量模型预测值与真实值之间的差异（误差），其目标是通过最小化损失函数来优化模型参数。

1. 常见损失函数类型

回归任务：
- 均方误差（MSE, Mean Squared Error）：
  [
  L(y, \hat{y}) = \frac{1}{n}\sum_{i=1}^n (y_i - \hat{y}_i)^2
  ]
  适用于预测连续值（如房价、温度），对异常值敏感。
- 平均绝对误差（MAE, Mean Absolute Error）：
  [
  L(y, \hat{y}) = \frac{1}{n}\sum_{i=1}^n |y_i - \hat{y}_i|
  ]
  对异常值鲁棒，但梯度不连续，优化较慢。
- Huber Loss：结合MSE和MAE的优点，对异常值鲁棒且梯度连续。
分类任务：
- 交叉熵损失（Cross-Entropy Loss）：
  - 二分类：
    [
    L(y, \hat{y}) = -[y \log(\hat{y}) + (1-y)\log(1-\hat{y})]
    ]
  - 多分类（Softmax交叉熵）：
    [
    L(y, \hat{y}) = -\sum_{c=1}^C y_c \log(\hat{y}_c)
    ]
    适用于分类问题，惩罚错误分类的预测概率。
- Hinge Loss（用于SVM）：
  [
  L(y, \hat{y}) = \max(0, 1 - y \cdot \hat{y})
  ]
  适用于最大间隔分类。
其他任务：
- 对比损失（Contrastive Loss）：用于度量学习。
- KL散度（Kullback-Leibler Divergence）：衡量两个概率分布的差异。

2. 选择损失函数的依据

任务类型：回归（MSE/MAE） vs 分类（交叉熵）。
数据特性：是否存在异常值（Huber Loss更鲁棒）。
模型需求：是否需要概率输出（交叉熵直接优化概率）。

二、优化器（Optimizer）

定义：优化器通过调整模型参数（如权重和偏置）来最小化损失函数，其核心是梯度下降算法及其变种。

1. 梯度下降（Gradient Descent）

基本思想：沿损失函数的负梯度方向更新参数。
更新公式：
[
\theta_{t+1} = \theta_t - \eta \cdot \nabla_\theta L(\theta_t)
]
其中，(\eta)为学习率（Learning Rate），控制更新步长。

2. 常见优化器变种

SGD（随机梯度下降）：
- 每次随机选择一个样本计算梯度，速度快但波动大。
- 适合大规模数据，但易陷入局部最优。
Momentum（动量法）：
- 引入动量项，加速收敛并减少震荡：
  [
  v_{t+1} = \gamma v_t + \eta \nabla_\theta L(\theta_t), \quad \theta_{t+1} = \theta_t - v_{t+1}
  ]
  其中，(\gamma)为动量系数（通常0.9）。
NAG（Nesterov Accelerated Gradient）：
- 在计算梯度前“预览”未来位置，进一步减少震荡。
Adagrad：
- 自适应学习率，对频繁更新的参数缩小步长，对稀疏参数放大步长：
  [
  \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t + \epsilon}} \odot \nabla_\theta L(\theta_t)
  ]
  其中，(G_t)是历史梯度平方的累加。
RMSprop：
- 改进Adagrad，使用指数加权平均避免学习率过早衰减：
  [
  v_{t+1} = \beta v_t + (1-\beta) \nabla_\theta L(\theta_t)^2, \quad \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{v_{t+1} + \epsilon}} \nabla_\theta L(\theta_t)
  ]
Adam（自适应矩估计）：
- 结合Momentum和RMSprop，同时维护一阶矩（动量）和二阶矩（自适应学习率）：
  [
  m_{t+1} = \beta_1 m_t + (1-\beta_1) \nabla_\theta L(\theta_t), \quad v_{t+1} = \beta_2 v_t + (1-\beta_2) \nabla_\theta L(\theta_t)^2
  ]
  [
  \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{v_{t+1} + \epsilon}} \cdot \frac{m_{t+1}}{1-\beta_1^t}
  ]
  默认参数：(\beta_1=0.9), (\beta_2=0.999), (\epsilon=10^{-8})。

3. 优化器选择依据

数据规模：小数据集可用SGD+Momentum，大数据集用Adam。
任务复杂度：非凸优化（如深度学习）推荐Adam或NAG。
超参数调优：Adam对学习率不敏感，但可能收敛到次优解；SGD需精细调参但可能更精确。

三、损失函数与优化器的关系

目标一致性：两者共同最小化损失函数，优化器决定如何更新参数，损失函数定义优化目标。
梯度计算：优化器依赖损失函数的梯度（如交叉熵的梯度与Softmax输出相关）。
组合选择：
- 分类任务：交叉熵 + Adam/SGD+Momentum。
- 回归任务：MSE + Adam/RMSprop。
- 稀疏数据：Adagrad或RMSprop。

四、实践建议

从Adam开始：默认使用Adam，因其自适应学习率和稳定收敛。
尝试SGD+Momentum：若需更高精度，可调低学习率并增加训练轮次。
监控损失曲线：若损失震荡或下降缓慢，调整学习率或优化器。
损失函数匹配任务：确保损失函数与问题类型（回归/分类）一致。

示例代码（PyTorch）：

import torch
import torch.nn as nn
import torch.optim as optim

# 定义模型
model = nn.Linear(10, 1)  # 简单线性回归

# 选择损失函数
criterion = nn.MSELoss()  # 回归任务用MSE
# criterion = nn.CrossEntropyLoss()  # 分类任务用交叉熵

# 选择优化器
optimizer = optim.Adam(model.parameters(), lr=0.001)  # Adam优化器
# optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)  # SGD+Momentum

# 训练循环
for inputs, targets in dataloader:
    optimizer.zero_grad()  # 清空梯度
    outputs = model(inputs)
    loss = criterion(outputs, targets)
    loss.backward()  # 计算梯度
    optimizer.step()  # 更新参数

通过合理选择损失函数和优化器，可以显著提升模型训练效率和性能。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

损失函数与优化器

一、损失函数（Loss Function）

1. 常见损失函数类型

2. 选择损失函数的依据

二、优化器（Optimizer）

1. 梯度下降（Gradient Descent）

2. 常见优化器变种

3. 优化器选择依据

三、损失函数与优化器的关系

四、实践建议

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

损失函数与优化器

一、损失函数（Loss Function）

1. 常见损失函数类型

2. 选择损失函数的依据

二、优化器（Optimizer）

1. 梯度下降（Gradient Descent）

2. 常见优化器变种

3. 优化器选择依据

三、损失函数与优化器的关系

四、实践建议

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品