CNN残差网络解决梯度消失

举报
Jack20 发表于 2025/07/17 14:47:51 2025/07/17
【摘要】 残差网络(Residual Network,ResNet)是卷积神经网络(CNN)领域里程碑式的架构创新,由何恺明(Kaiming He)等人于2015年提出。其核心目标是通过​​残差学习​​(Residual Learning)解决深度网络训练中的​​退化问题​​(Degradation Problem),即当网络层数增加时,性能不升反降的现象,而梯度消失正是退化问题的主因之一。  传统深...

残差网络(Residual Network,ResNet)是卷积神经网络(CNN)领域里程碑式的架构创新,由何恺明(Kaiming He)等人于2015年提出。其核心目标是通过​​残差学习​​(Residual Learning)解决深度网络训练中的​​退化问题​​(Degradation Problem),即当网络层数增加时,性能不升反降的现象,而梯度消失正是退化问题的主因之一。

 

联想截图_20250717144626.png


 

传统深度神经网络直接学习目标映射函数 H(x) = y(例如输入图像到分类标签的映射)。但当网络过深时,优化 H(x) 变得困难,梯度在反向传播中逐层衰减(梯度消失)或爆炸,导致深层参数难以更新。

ResNet创新性地引入​​残差映射​​:

  • 定义残差函数 F(x) = H(x) - x,目标变为学习 F(x)
  • 输出改写为 H(x) = F(x) + x,其中 x 是输入,F(x) 是卷积层堆叠的变换。

​关键优势​​:

  1. ​恒等映射的简易性​​:若当前层无需复杂变换(即 H(x) = x 最优),则学习 F(x) = 0 比直接学习 H(x) = x 更易实现;
  2. ​梯度传播的捷径​​:跳跃连接(Skip Connection)使输入 x 直连输出层,反向传播时梯度可绕过中间层直接传递,避免因链式法则导致梯度逐层衰减。

 二、结构设计:残差块与网络架构

ResNet通过堆叠​​残差块​​(Residual Block)构建深层网络,分为两种类型:

  1. ​基本残差块​​(用于浅层网络如ResNet-18/34)

    • 结构:两个3×3卷积层 + 跳跃连接
    • 公式:y = F(x) + x,其中 F(x) 为两层卷积操作。
  2. ​瓶颈残差块​​(用于深层网络如ResNet-50/101/152)

    • 结构:1×1卷积(降维)→ 3×3卷积(特征提取)→ 1×1卷积(升维)
    • 目的:减少参数量,提升计算效率。

 经典ResNet架构对比

​网络版本​ ​残差块类型​ ​深度(层数)​ ​参数量​ ​适用场景​
ResNet-18 基本残差块 18 11M 轻量级任务,移动端
ResNet-34 基本残差块 34 21M 中等复杂度任务
ResNet-50 瓶颈残差块 50 25M 主流图像任务
ResNet-101 瓶颈残差块 101 44M 高精度检测/分割
ResNet-152 瓶颈残差块 152 60M 极致精度需求任务

注:深度包含卷积层、池化层和全连接层。

 三、解决梯度消失的机制:前向与反向传播分析

1. ​​前向传播:信息无损传递​

  • 跳跃连接保留原始输入信息,确保深层网络至少不弱于浅层网络(恒等映射保障);
  • 即使中间层 F(x) 学习效果差,输出 y = F(x) + x 仍包含 x 的有效信息。

2. ​​反向传播:梯度直达通道​

  • 设损失函数为 L,反向传播至残差块输出时,梯度计算为:
    ∂L/∂x = ∂L/∂y * (∂F(x)/∂x + 1)
  • ​关键点​​:+1 项确保梯度至少以1的系数传递至前层,避免梯度消失(传统链式法则中梯度可能因连续乘法趋近0)。

✅ ​​实验验证​​:ResNet-152在ImageNet上训练时,梯度在152层中仍稳定传播,而传统网络(如VGG-19)在30层后梯度已显著衰减。

 四、应用与演进

  • ​核心任务​​:图像分类(ImageNet冠军)、目标检测(Faster R-CNN、Mask R-CNN)、图像分割、医学影像分析;
  • ​架构演进​​:
    • 与注意力机制结合(如ResNet + SE-Net),通过通道加权增强特征表达;
    • 轻量化设计(如MobileNet-V2引入倒残差块),适配移动端部署。

 

 五、总结:ResNet的意义

ResNet通过​​残差学习​​和​​跳跃连接​​,解决了深度神经网络的​​梯度消失​​与​​退化问题​​,使训练百层以上网络成为可能。其设计核心在于:

  1. 学习残差 F(x) 而非直接映射 H(x),降低优化难度;
  2. 跳跃连接构建梯度传播捷径,保障深层网络参数有效更新;
  3. 模块化残差块支持灵活扩展,推动CV领域向超深网络演进。

何恺明团队凭借ResNet获得2016年CVPR最佳论文,其思想已被Transformer等架构借鉴,成为深度学习基石之一。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。