ResNeXt: 通过聚合残差变换增强深度神经网络
【摘要】 在计算机视觉领域,网络架构设计正经历从手工特征工程向自动特征学习的范式转变。传统卷积神经网络(如VGG、ResNet)通过堆叠相同拓扑结构的模块来构建深度网络,但这种单一维度的扩展方式逐渐显现出局限性。我们注意到,Inception系列网络通过split-transform-merge策略获得了显著性能提升,但其复杂的多分支设计存在参数调整困难、泛化能力受限等问题。我们提出了一种新颖的深度神...
在计算机视觉领域,网络架构设计正经历从手工特征工程向自动特征学习的范式转变。传统卷积神经网络(如VGG、ResNet)通过堆叠相同拓扑结构的模块来构建深度网络,但这种单一维度的扩展方式逐渐显现出局限性。我们注意到,Inception系列网络通过split-transform-merge策略获得了显著性能提升,但其复杂的多分支设计存在参数调整困难、泛化能力受限等问题。
我们提出了一种新颖的深度神经网络架构 ResNeXt ,通过引入基数(Cardinality) 这一新维度,结合残差学习与多分支变换策略,显著提升了模型的表示能力。ResNeXt不仅继承了ResNet的简洁性和可扩展性,还融合了Inception模块的split-transform-merge思想,在保持计算复杂度的同时,实现了更高的分类准确率。以下将详细阐述我们的方法及其核心创新。
1. 核心思想与动机
传统的深度神经网络设计主要围绕深度 和宽度 两个维度展开。然而,我们发现增加基数 (即同一层内并行变换路径的数量)能更高效地提升模型性能。这一设计灵感来源于以下观察:
-
ResNet的局限性:ResNet通过残差连接缓解了深层网络的优化难题,但其单一路径的变换限制了特征的多样性。
-
Inception的启发:Inception模块通过多分支不同尺度的卷积操作捕获多粒度特征,但复杂的定制化设计难以扩展。
-
Split-Transform-Merge策略:将输入特征拆分为多个低维嵌入,分别进行变换后聚合,可显著增强特征的表达能力。
基于此,我们提出了 聚合残差变换Aggregated Residual Transformations ,将多个相同拓扑结构的变换路径(基数)集成到残差块中,形成统一的模块化设计:
2. ResNeXt的核心架构
2.1 模板化设计规则
我们遵循VGG/ResNet的模块重复原则 ,所有残差块共享相同拓扑结构,并遵循两条核心规则:
空间尺寸相同的层共享超参数(如卷积核尺寸、宽度)。
下采样时宽度翻倍:每次空间尺寸减半(如从56×56到28×28),通道数增加一倍以平衡计算量。
这一规则确保了网络的计算复杂度均匀分布 ,同时极大简化了超参数调整,如下是ResNet-50与ResNeXt-50架构对比:
Stage
|
ResNet-50
|
ResNeXt-50 (32×4d)
|
---|---|---|
conv2
|
[1×1, 64] → 3×3, 64 → [1×1, 256] (重复3次)
|
[1×1, 128] → 分组卷积(32组) → [1×1, 256] (重复3次)
|
参数量
|
25.5M
|
25.0M
|
FLOPs
|
4.1×10⁹
|
4.2×10⁹
|
(注:分组卷积的分组数等于基数C=32,后文将详细解释。)
2.2 残差块的重新设计
原始ResNet残差块(图左)
传统的残差块由三个卷积层构成:1×1降维 → 3×3卷积 → 1×1升维。例如,输入256通道经过1×1卷积降维至64通道,再通过3×3卷积,最后升维回256通道。
ResNeXt残差块(图右)
我们引入基数C ,将单一变换路径扩展为C条并行路径,每条路径执行相同的操作:
拆分(Split):输入特征通过1×1卷积映射到低维空间(如4通道)。
变换(Transform):对每个低维嵌入执行3×3卷积。
聚合(Merge):将所有路径的输出按通道相加,再通过1×1卷积恢复维度。
2.3 基数的等效实现形式
ResNeXt的聚合变换可通过三种等效形式实现(如图所示):
独立路径相加(图a):每条路径独立计算后相加,直观但实现复杂。
早期拼接(图b):将低维变换后的特征在通道维度拼接,再通过1×1卷积融合。此形式与Inception-ResNet模块相似,但所有路径共享相同拓扑。
分组卷积(图c):利用分组卷积(Grouped Convolution)隐式实现多路径拆分。例如,输入128通道通过32组4通道的3×3卷积,等效于32条独立路径的聚合。
分组卷积的优势:
-
实现更高效,无需显式管理多分支。
-
兼容现有深度学习框架(如PyTorch、TensorFlow)。
2.4 基数与宽度的权衡
为公平比较不同基数对模型性能的影响,我们固定模型的参数量和计算量(FLOPs),通过调整 瓶颈宽度来平衡基数C的增加如下表基数与瓶颈宽度的关系(固定复杂度):
基数C
|
1
|
2
|
4
|
8
|
32
|
---|---|---|---|---|---|
瓶颈宽度d
|
64
|
40
|
24
|
14
|
4
|
分组卷积宽度
|
64
|
80
|
96
|
112
|
128
|
实验表明,当C=32、d=4时,模型在ImageNet-1K上的分类误差较ResNet-50降低1.7%(从23.9%降至22.2%),验证了基数提升的有效性。
3. 实验结果与验证
3.1 ImageNet-1K分类任务
基数优于深度/宽度:ResNeXt-101(32×4d)在相同复杂度下,分类误差较ResNet-101降低0.8%(从22.0%至21.2%)。
扩展基数提升显著:将基数从32增至64(参数量翻倍),ResNeXt-101的Top-1误差进一步降至20.4%,优于ResNet-200(21.7%)和更宽的ResNet变体(21.3%)。
ImageNet-1K分类误差对比:
模型
|
Top-1误差 (%)
|
---|---|
ResNet-50
|
23.9
|
ResNeXt-50 (32×4d)
|
22.2
|
ResNet-101
|
22.0
|
ResNeXt-101 (32×4d)
|
21.2
|
3.2 跨任务泛化能力
目标检测(COCO):ResNeXt-50在Faster R-CNN框架下,AP@0.5提升2.1%(47.6% → 49.7%)。
小数据集(CIFAR):ResNeXt-29(16×64d)在CIFAR-10上达到3.58%的测试误差,优于Wide ResNet。

4. 总结与展望
基数作为新维度:首次将基数与深度、宽度并列,为网络设计提供新方向。
模块化与可扩展性:所有残差块共享相同拓扑,避免了Inception的定制化复杂性。
高效实现:通过分组卷积实现多路径聚合,兼顾性能与效率。
在COCO目标检测任务中:
-
Faster R-CNN框架下,ResNeXt-50较ResNet-50绝对提升2.1% AP@0.5
-
后续工作(如Mask R-CNN)验证了本架构在实例分割任务的优越性
本方法为视觉识别任务提供了新的基础架构范式,其简单的模块化设计、可扩展的基数维度、高效的实现方式,使其在保持ResNet易用性的同时,达到了超越Inception系列模型的性能。相关代码和预训练模型已开源,推动了后续研究和工业应用的快速发展。
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)