- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

CNN中的激活函数层

林欣发表于 2025/08/29 17:01:47 2025/08/29

【摘要】在卷积神经网络（CNN）中，激活函数层通过引入非线性变换，使模型能够学习复杂的数据模式（如图像中的边缘、纹理组合等）。没有激活函数，CNN将退化为线性模型，无法解决非线性问题。以下是CNN中常用的激活函数及其特性、应用场景和代码示例的详细解析： 1. 为什么需要激活函数？线性模型的局限性：若仅使用卷积层和全连接层（均为线性变换），堆叠多层网络仍等价于单层线性模型（如 y = W_n...W_...

在卷积神经网络（CNN）中，激活函数层通过引入非线性变换，使模型能够学习复杂的数据模式（如图像中的边缘、纹理组合等）。没有激活函数，CNN将退化为线性模型，无法解决非线性问题。以下是CNN中常用的激活函数及其特性、应用场景和代码示例的详细解析：

1. 为什么需要激活函数？

线性模型的局限性：
若仅使用卷积层和全连接层（均为线性变换），堆叠多层网络仍等价于单层线性模型（如 y = W_n...W_2W_1x 可合并为 y = W'x），无法拟合非线性数据（如图像中的物体形状）。
非线性激活的作用：
通过非线性变换（如 ReLU(x) = max(0, x)），使网络能够学习层次化特征（边缘→部件→物体）。

2. CNN中常用的激活函数

(1) ReLU（Rectified Linear Unit）

公式：
[
f(x) = \max(0, x)
]
特点：
- 计算高效：仅需比较和取最大值操作。
- 缓解梯度消失：正区间梯度恒为1，加速深层网络训练。
- 稀疏激活：负输入输出为0，相当于部分神经元“死亡”，增加模型稀疏性。
问题：
- 神经元死亡：若输入长期为负（如学习率过大），梯度为0，神经元无法更新。
改进变体：
- LeakyReLU：负区间引入小斜率（如 f(x) = max(0.01x, x)）。
- Parametric ReLU (PReLU)：斜率作为可学习参数（f(x) = max(αx, x)）。
- Swish：f(x) = x * sigmoid(βx)（自门控机制，效果优于ReLU但计算稍复杂）。

(2) Sigmoid

公式：
[
f(x) = \frac{1}{1 + e^{-x}}
]
特点：
- 输出范围 (0, 1)，适合二分类概率输出（如最后一层）。
- 梯度消失：输入绝对值较大时，梯度接近0，阻碍深层网络训练。
应用场景：
- 仅用于二分类任务的输出层（现代CNN中较少在中间层使用）。

(3) Tanh（Hyperbolic Tangent）

公式：
[
f(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}
]
特点：
- 输出范围 (-1, 1)，零均值输出（比Sigmoid更优）。
- 仍存在梯度消失问题（输入较大时梯度接近0）。
应用场景：
- 早期RNN中常用，现代CNN中逐渐被ReLU替代。

(4) Softmax

公式（多分类输出层）：
[
f(x_i) = \frac{e^{x_i}}{\sum_{j=1}^K e^{x_j}} \quad \text{（对第i个类别）}
]
特点：
- 将输出转换为概率分布（所有类别概率和为1）。
- 仅用于多分类任务的最后一层（如ImageNet分类）。

代码示例：

nn.Softmax(dim=1)  # 沿类别维度（dim=1）计算概率

(5) GELU（Gaussian Error Linear Unit）

公式：
[
f(x) = x \cdot \Phi(x) \quad \text{（其中 } \Phi(x) \text{ 为标准正态分布的CDF）}
]
近似形式：f(x) = 0.5x(1 + tanh(√(2/π)(x + 0.044715x³)))
特点：
- 结合ReLU和Dropout的思想，平滑且非单调。
- 在Transformer和现代CNN（如EfficientNet）中表现优异。
代码示例：
```
nn.GELU()  # PyTorch内置实现
```

3. 激活函数的选择原则

场景	推荐激活函数	原因
隐藏层（默认）	ReLU（或LeakyReLU/Swish）	计算高效，缓解梯度消失，适合深层网络。
二分类输出层	Sigmoid	输出范围 `(0, 1)`，可直接解释为概率。
多分类输出层	Softmax	输出概率分布，满足多分类任务的归一化需求。
RNN/LSTM	Tanh（或ReLU变体）	Tanh的零均值输出有助于稳定梯度流动；现代架构也尝试ReLU变体。
需要平滑梯度	Swish/GELU	自门控机制或高斯近似，在特定任务中优于ReLU（如图像生成、NLP）。

4. 代码示例（PyTorch）

import torch
import torch.nn as nn

# 定义包含激活函数的简单CNN
class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(3, 16, kernel_size=3, padding=1)
        self.relu = nn.ReLU()  # 激活函数层
        self.pool = nn.MaxPool2d(2)
        self.fc = nn.Linear(16 * 16 * 16, 10)  # 假设输入图像为32x32
        self.softmax = nn.Softmax(dim=1)  # 输出层激活

    def forward(self, x):
        x = self.conv1(x)
        x = self.relu(x)  # 应用ReLU
        x = self.pool(x)
        x = x.view(x.size(0), -1)  # 展平
        x = self.fc(x)
        x = self.softmax(x)  # 多分类输出
        return x

# 实例化模型
model = SimpleCNN()
input_data = torch.randn(4, 3, 32, 32)  # batch_size=4, RGB图像
output = model(input_data)
print(output.shape)  # 输出: torch.Size([4, 10])

5. 激活函数的演进趋势

从Sigmoid/Tanh到ReLU：
解决梯度消失问题，推动深层CNN（如VGG、ResNet）的发展。
从ReLU到其变体：
LeakyReLU/Swish/GELU等改进版进一步优化梯度流动和模型性能。
任务特定激活函数：
如SELU（自归一化网络）、Mish（平滑连续）等在特定场景下表现优异。

总结

激活函数是CNN中不可或缺的组件，通过引入非线性使模型能够学习复杂特征。ReLU及其变体是隐藏层的默认选择，而Sigmoid/Softmax则分别用于二分类和多分类输出层。随着研究深入，更复杂的激活函数（如Swish、GELU）在特定任务中展现出优势，但需权衡计算成本与性能提升。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

CNN中的激活函数层

1. 为什么需要激活函数？

2. CNN中常用的激活函数

(1) ReLU（Rectified Linear Unit）

(2) Sigmoid

(3) Tanh（Hyperbolic Tangent）

(4) Softmax

(5) GELU（Gaussian Error Linear Unit）

3. 激活函数的选择原则

4. 代码示例（PyTorch）

5. 激活函数的演进趋势

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

CNN中的激活函数层

1. 为什么需要激活函数？

2. CNN中常用的激活函数

(1) ReLU（Rectified Linear Unit）

(2) Sigmoid

(3) Tanh（Hyperbolic Tangent）

(4) Softmax

(5) GELU（Gaussian Error Linear Unit）

3. 激活函数的选择原则

4. 代码示例（PyTorch）

5. 激活函数的演进趋势

总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品