- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

ResNeXt: 通过聚合残差变换增强深度神经网络

是Dream呀发表于 2025/03/07 10:13:06 2025/03/07

【摘要】在计算机视觉领域，网络架构设计正经历从手工特征工程向自动特征学习的范式转变。传统卷积神经网络（如VGG、ResNet）通过堆叠相同拓扑结构的模块来构建深度网络，但这种单一维度的扩展方式逐渐显现出局限性。我们注意到，Inception系列网络通过split-transform-merge策略获得了显著性能提升，但其复杂的多分支设计存在参数调整困难、泛化能力受限等问题。我们提出了一种新颖的深度神...

在计算机视觉领域，网络架构设计正经历从手工特征工程向自动特征学习的范式转变。传统卷积神经网络（如VGG、ResNet）通过堆叠相同拓扑结构的模块来构建深度网络，但这种单一维度的扩展方式逐渐显现出局限性。我们注意到，Inception系列网络通过split-transform-merge策略获得了显著性能提升，但其复杂的多分支设计存在参数调整困难、泛化能力受限等问题。

我们提出了一种新颖的深度神经网络架构 ResNeXt ，通过引入基数（Cardinality）这一新维度，结合残差学习与多分支变换策略，显著提升了模型的表示能力。ResNeXt不仅继承了ResNet的简洁性和可扩展性，还融合了Inception模块的split-transform-merge思想，在保持计算复杂度的同时，实现了更高的分类准确率。以下将详细阐述我们的方法及其核心创新。

1. 核心思想与动机

传统的深度神经网络设计主要围绕深度和宽度两个维度展开。然而，我们发现增加基数（即同一层内并行变换路径的数量）能更高效地提升模型性能。这一设计灵感来源于以下观察：

ResNet的局限性：ResNet通过残差连接缓解了深层网络的优化难题，但其单一路径的变换限制了特征的多样性。
Inception的启发：Inception模块通过多分支不同尺度的卷积操作捕获多粒度特征，但复杂的定制化设计难以扩展。
Split-Transform-Merge策略：将输入特征拆分为多个低维嵌入，分别进行变换后聚合，可显著增强特征的表达能力。

基于此，我们提出了聚合残差变换Aggregated Residual Transformations ，将多个相同拓扑结构的变换路径（基数）集成到残差块中，形成统一的模块化设计：

2. ResNeXt的核心架构

2.1 模板化设计规则

我们遵循VGG/ResNet的模块重复原则，所有残差块共享相同拓扑结构，并遵循两条核心规则：

空间尺寸相同的层共享超参数（如卷积核尺寸、宽度）。

下采样时宽度翻倍：每次空间尺寸减半（如从56×56到28×28），通道数增加一倍以平衡计算量。

这一规则确保了网络的计算复杂度均匀分布，同时极大简化了超参数调整，如下是ResNet-50与ResNeXt-50架构对比：

Stage	ResNet-50	ResNeXt-50 (32×4d)
conv2	[1×1, 64] → 3×3, 64 → [1×1, 256] (重复3次)	[1×1, 128] → 分组卷积（32组） → [1×1, 256] (重复3次)
参数量	25.5M	25.0M
FLOPs	4.1×10⁹	4.2×10⁹

（注：分组卷积的分组数等于基数C=32，后文将详细解释。）

2.2 残差块的重新设计

原始ResNet残差块（图左）

传统的残差块由三个卷积层构成：1×1降维 → 3×3卷积 → 1×1升维。例如，输入256通道经过1×1卷积降维至64通道，再通过3×3卷积，最后升维回256通道。

ResNeXt残差块（图右）

我们引入基数C ，将单一变换路径扩展为C条并行路径，每条路径执行相同的操作：

拆分（Split）：输入特征通过1×1卷积映射到低维空间（如4通道）。

变换（Transform）：对每个低维嵌入执行3×3卷积。

聚合（Merge）：将所有路径的输出按通道相加，再通过1×1卷积恢复维度。

2.3 基数的等效实现形式

ResNeXt的聚合变换可通过三种等效形式实现（如图所示）：

独立路径相加（图a）：每条路径独立计算后相加，直观但实现复杂。

早期拼接（图b）：将低维变换后的特征在通道维度拼接，再通过1×1卷积融合。此形式与Inception-ResNet模块相似，但所有路径共享相同拓扑。

分组卷积（图c）：利用分组卷积（Grouped Convolution）隐式实现多路径拆分。例如，输入128通道通过32组4通道的3×3卷积，等效于32条独立路径的聚合。

分组卷积的优势：

实现更高效，无需显式管理多分支。
兼容现有深度学习框架（如PyTorch、TensorFlow）。

2.4 基数与宽度的权衡

为公平比较不同基数对模型性能的影响，我们固定模型的参数量和计算量（FLOPs），通过调整瓶颈宽度来平衡基数C的增加如下表基数与瓶颈宽度的关系（固定复杂度）：

基数C	1	2	4	8	32
瓶颈宽度d	64	40	24	14	4
分组卷积宽度	64	80	96	112	128

实验表明，当C=32、d=4时，模型在ImageNet-1K上的分类误差较ResNet-50降低1.7%（从23.9%降至22.2%），验证了基数提升的有效性。

3. 实验结果与验证

3.1 ImageNet-1K分类任务

基数优于深度/宽度：ResNeXt-101（32×4d）在相同复杂度下，分类误差较ResNet-101降低0.8%（从22.0%至21.2%）。

扩展基数提升显著：将基数从32增至64（参数量翻倍），ResNeXt-101的Top-1误差进一步降至20.4%，优于ResNet-200（21.7%）和更宽的ResNet变体（21.3%）。

ImageNet-1K分类误差对比：

模型	Top-1误差 (%)
ResNet-50	23.9
ResNeXt-50 (32×4d)	22.2
ResNet-101	22.0
ResNeXt-101 (32×4d)	21.2

3.2 跨任务泛化能力

目标检测（COCO）：ResNeXt-50在Faster R-CNN框架下，AP@0.5提升2.1%（47.6% → 49.7%）。

小数据集（CIFAR）：ResNeXt-29（16×64d）在CIFAR-10上达到3.58%的测试误差，优于Wide ResNet。

4. 总结与展望

基数作为新维度：首次将基数与深度、宽度并列，为网络设计提供新方向。

模块化与可扩展性：所有残差块共享相同拓扑，避免了Inception的定制化复杂性。

高效实现：通过分组卷积实现多路径聚合，兼顾性能与效率。

在COCO目标检测任务中：

Faster R-CNN框架下，ResNeXt-50较ResNet-50绝对提升2.1% AP@0.5
后续工作（如Mask R-CNN）验证了本架构在实例分割任务的优越性

本方法为视觉识别任务提供了新的基础架构范式，其简单的模块化设计、可扩展的基数维度、高效的实现方式，使其在保持ResNet易用性的同时，达到了超越Inception系列模型的性能。相关代码和预训练模型已开源，推动了后续研究和工业应用的快速发展。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

ResNeXt: 通过聚合残差变换增强深度神经网络

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

ResNeXt: 通过聚合残差变换增强深度神经网络

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品