Deep Residual Learning for Image Recognition
论文地址:https://arxiv.org/abs/1512.03385
摘要
更深的神经网络更难训练。 我们提出了一个残差学习框架,以简化比以前使用的网络更深的网络的训练。 我们明确地将层重新表述为参考层输入学习残差函数,而不是学习未引用的函数。 我们提供了全面的经验证据,表明这些残差网络更容易优化,并且可以从显着增加的深度中获得准确性。 在 ImageNet 数据集上,我们评估深度高达 152 层的残差网络——比 VGG 网络 [41] 深 8 倍,但仍然具有较低的复杂性。 这些残差网络的集合在 ImageNet 测试集上实现了 3.57% 的错误率。 该结果在 ILSVRC 2015 分类任务中获得第一名。 我们还提供分析 在具有 100 和 1000 层的 CIFAR-10 上。
表示的深度对于许多视觉识别任务至关重要。 仅由于我们极深的表示,我们在 COCO 对象检测数据集上获得了 28% 的相对改进。 深度残差网络是我们提交给 ILSVRC & COCO 2015 比赛的基础,我们还在 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割任务上获得了第一名。
1 引言
深度卷积神经网络 [22, 21] 为图像分类带来了一系列突破 [21,50, 40]。 深度网络以端到端的多层方式自然地集成了低/中/高级特征 [50] 和分类器,并且特征的“级别”可以通过堆叠层的数量(深度)来丰富。 最近的证据 [41, 44] 表明网络深度至关重要,在具有挑战性的 ImageNet 数据集 [36] 上的领先结果 [41, 44, 13, 16] 都利用了“非常深”的 [41] 模型,具有 深度为十六 [41] 至三十 [16]。 许多其他重要的视觉识别任务 [8, 12, 7, 32, 27] 也从非常深的模型中受益匪浅。
在深度重要性的驱动下,出现了一个问题:学习更好的网络是否与堆叠更多层一样容易? 回答这个问题的一个障碍是梯度消失/爆炸的臭名昭著的问题 [1, 9],这从一开始就阻碍了收敛。 然而,这个问题已经在很大程度上通过归一化初始化 [23, 9, 37, 13] 和中间归一化层 [16] 得到解决,这使得具有数十层的网络能够开始收敛以使用反向传播进行随机梯度下降 (SGD) [22 ]。
当更深的网络能够开始收敛时,退化问题就暴露出来了:随着网络深度的增加,准确度会饱和(这可能不足为奇)然后迅速下降。 出乎意料的是,这种退化不是由过度拟合引起的,并且向适当深度的模型添加更多层会导致更高的训练误差,如 [11, 42] 中所述,并通过我们的实验彻底验证。 图 1 显示了一个典型的例子。
(训练准确度的下降)表明并非所有系统都同样易于优化。 让我们考虑一个较浅的架构及其在其上添加更多层的更深层次的对应物。 通过构造更深的模型存在一个解决方案:添加的层是身份映射,其他层是从学习的更浅模型中复制的。 这种构造解决方案的存在表明,更深的模型不应产生比其更浅的对应模型更高的训练误差。 但是实验表明,我们现有的求解器无法找到与构建的解决方案相当或更好的解决方案(或无法在可行的时间内找到)。
在本文中,我们通过引入深度残差学习框架来解决退化问题。 我们不是希望每几个堆叠层直接适合所需的底层映射,而是明确让这些层适合残差映射。 正式地,将所需的底层映射表示为
H(x),我们让堆叠的非线性层拟合
F(x):=H(x)−x 的另一个映射。 原始映射被重铸为
F(x)+x。 我们假设优化残差映射比优化原始的、未引用的映射更容易。 在极端情况下,如果恒等映射是最优的,那么将残差推为零比通过一堆非线性层拟合恒等映射更容易。
F(x)+x 的公式可以通过具有“快捷连接”的前馈神经网络来实现(图 2)。 快捷连接 [2, 34, 49] 是那些跳过一层或多层的连接。 在我们的例子中,快捷连接只是执行身份映射,它们的输出被添加到堆叠层的输出中(图 2)。 身份快捷方式连接既不增加额外参数,也不增加计算复杂度。 整个网络仍然可以通过带有反向传播的 SGD 进行端到端的训练,并且可以使用通用库(例如 Caffe [19])轻松实现,而无需修改求解器。
我们在 ImageNet [36] 上进行了全面的实验,以展示退化问题并评估我们的方法。 我们表明:1)我们极深的残差网络很容易优化,但是当深度增加时,对应的“普通”网络(简单地堆叠层)表现出更高的训练误差; 2)我们的深度残差网络可以很容易地从大大增加的深度中获得准确度的提升,产生的结果比以前的网络要好得多。
CIFAR-10 数据集 [20] 上也显示了类似的现象,这表明优化困难和我们方法的效果不仅仅类似于特定数据集。 我们在这个超过 100 层的数据集上展示了成功训练的模型,并探索了超过 1000 层的模型。
在 ImageNet 分类数据集 [36] 上,我们通过极深的残差网络获得了出色的结果。 我们的 152 层残差网络是 ImageNet 上有史以来最深的网络,同时其复杂性仍低于 VGG 网络 [41]。 我们的集成在 ImageNet 测试集上的 top-5 错误率为 3.57%,并在 ILSVRC 2015 分类竞赛中获得第一名。 极深的表征在其他识别任务上也具有出色的泛化性能,并带领我们在 ILSVRC & COCO 2015 竞赛中进一步在 ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割方面获得第一名。 这个强有力的证据表明残差学习原理是通用的,我们希望它适用于其他视觉和非视觉问题。
2 相关工作
残差表示。 在图像识别中,VLAD [18] 是一种由残差向量相对于字典编码的表示,Fisher Vector [30] 可以表示为 VLAD 的概率版本 [18]。 它们都是用于图像检索和分类的强大浅层表示 [4, 48]。 对于矢量量化,编码残差矢量 [17] 被证明比编码原始矢量更有效。
在低级视觉和计算机图形学中,为了求解偏微分方程 (PDE),广泛使用的多重网格方法 [3] 将系统重新表述为多个尺度的子问题,其中每个子问题负责较粗和较细的残差解 规模。 Multigrid 的一种替代方法是分层基础预处理 [45, 46],它依赖于表示两个尺度之间残差向量的变量。 已经表明 [3, 45, 46] 这些求解器的收敛速度比不知道解的残差性质的标准求解器快得多。 这些方法表明,良好的重构或预处理可以简化优化。
快捷连接。导致快捷连接[2,33,48]的实践和理论已经被研究了很长时间。训练多层感知机(MLP)的早期实践是添加一个线性层来连接网络的输入和输出[33,48]。在[43,24]中,一些中间层直接连接到辅助分类器,用于解决梯度消失/爆炸。论文[38,37,31,46]提出了通过快捷连接实现层间响应,梯度和传播误差的方法。在[43]中,一个“inception”层由一个快捷分支和一些更深的分支组成。
和我们同时进行的工作,“highway networks” [41, 42]提出了门功能[15]的快捷连接。这些门是数据相关且有参数的,与我们不具有参数的恒等快捷连接相反。当门控快捷连接“关闭”(接近零)时,高速网络中的层表示非残差函数。相反,我们的公式总是学习残差函数;我们的恒等快捷连接永远不会关闭,所有的信息总是通过,还有额外的残差函数要学习。此外,高速网络还没有证实极度增加的深度(例如,超过100个层)带来的准确性收益。
3 深度残差学习
3.1 残差学习
我们考虑
H(x)作为几个堆叠层(不必是整个网络)要拟合的基础映射,x表示这些层中第一层的输入。假设多个非线性层可以渐近地近似复杂函数,它等价于假设它们可以渐近地近似残差函数,即
H(x)−x(假设输入输出是相同维度)。因此,我们明确让这些层近似参数函数
F(x):=H(x)−x,而不是期望堆叠层近似H(x)。因此原始函数变为
F(x)+x。尽管两种形式应该都能渐近地近似要求的函数(如假设),但学习的难易程度可能是不同的。
关于退化问题的反直觉现象激发了这种重构(图1左)。正如我们在引言中讨论的那样,如果添加的层可以被构建为恒等映射,更深模型的训练误差应该不大于它对应的更浅版本。退化问题表明求解器通过多个非线性层来近似恒等映射可能有困难。通过残差学习的重构,如果恒等映射是最优的,求解器可能简单地将多个非线性连接的权重推向零来接近恒等映射。
在实际情况下,恒等映射不太可能是最优的,但是我们的重构可能有助于对问题进行预处理。如果最优函数比零映射更接近于恒等映射,则求解器应该更容易找到关于恒等映射的抖动,而不是将该函数作为新函数来学习。我们通过实验(图7)显示学习的残差函数通常有更小的响应,表明恒等映射提供了合理的预处理。
3.2 快捷恒等映射
我们每隔几个堆叠层采用残差学习。构建块如图2所示。在本文中我们考虑构建块正式定义为:
y=F(x,W_{i})+x\tag{1} $$ {公式1} x和y是考虑的层的输入和输出向量。函数$F(x,\{W_{i}\})$表示要学习的残差映射。图2中的例子有两层,$F=W_{2}σ(W_{1}x)$中$σ$表示ReLU[29],为了简化写法忽略偏置项。$F+x$操作通过快捷连接和各个元素相加来执行。在相加之后我们采纳了第二种非线性(即$σ(y)$,看图2)。 方程(1)中的快捷连接既没有引入外部参数又没有增加计算复杂度。这不仅在实践中有吸引力,而且在简单网络和残差网络的比较中也很重要。我们可以公平地比较同时具有相同数量的参数,相同深度,宽度和计算成本的简单/残差网络(除了不可忽略的元素加法之外)。 方程(1)中$x和F$的维度必须是相等的。如果不是这种情况(例如,当更改输入/输出通道时),我们可以通过快捷连接执行线性投影WsWs来匹配维度:
y=F(x,{W_{i}})+W_{s}x.\tag{2}
我们也可以使用方程(1)中的方阵$W_{s}$。但是我们将通过实验表明,恒等映射足以解决退化问题,并且是合算的,因此$W_{s}$仅在匹配维度时使用。 残差函数FF的形式是可变的。本文中的实验包括有两层或三层(图5)的函数FF,同时可能有更多的层。但如果FF只有一层,方程(1)类似于线性层:$y=W_{1}x+x$,我们没有看到优势。 我们还注意到,为了简单起见,尽管上述符号是关于全连接层的,但它们同样适用于卷积层。函数$F(x,\{W_{i}\})$可以表示多个卷积层。元素加法在两个特征图上逐通道进行。 ## 3.3 网络架构 我们测试了各种简单/残差网络,并观察到了一致的现象。为了提供讨论的实例,我们描述了ImageNet的两个模型如下。 **简单网络**。 我们简单网络的基准(图3,中间)主要受到VGG网络[40](图3,左图)的哲学启发。卷积层主要有3×3的滤波器,并遵循两个简单的设计规则:(i)对于相同的输出特征图尺寸,层具有相同数量的滤波器;(ii)如果特征图尺寸减半,则滤波器数量加倍,以便保持每层的时间复杂度。我们通过步长为2的卷积层直接执行下采样。网络以全局平均池化层和具有softmax的1000维全连接层结束。图3(中间)的加权层总数为34。 ![image53](https://img-blog.csdnimg.cn/img_convert/7048a56c0f334fee3a77ced3df5b95cb.png)
图 3. ImageNet 的示例网络架构。 左:作为参考的 VGG-19 模型 [41](196 亿 FLOP)。 中间:具有 34 个参数层(36 亿次浮点运算)的普通网络。 右图:具有 34 个参数层(36 亿次浮点运算)的残差网络。 虚线快捷方式增加了维度。 表 1 显示了更多细节和其他变体。 值得注意的是我们的模型与VGG网络(图3左)相比,有更少的滤波器和更低的复杂度。我们的34层基准有36亿FLOP(乘加),仅是VGG-19(196亿FLOP)的18%。 **残差网络**。 基于上述的简单网络,我们插入快捷连接(图3,右),将网络转换为其对应的残差版本。当输入和输出具有相同的维度时(图3中的实线快捷连接)时,可以直接使用恒等快捷连接(方程(1))。当维度增加(图3中的虚线快捷连接)时,我们考虑两个选项:(A)快捷连接仍然执行恒等映射,额外填充零输入以增加维度。此选项不会引入额外的参数;(B)方程(2)中的投影快捷连接用于匹配维度(由1×1卷积完成)。对于这两个选项,当快捷连接跨越两种尺寸的特征图时,它们执行时步长为2。 ## 3.4 实现 我们对 ImageNet 的实现遵循了 [21, 41] 中的做法。 图像被调整大小,其较短的边在 [256;480] 中随机采样以进行缩放 [41]。$224×224$ 的裁剪是从图像或其水平翻转中随机采样的,减去每个像素的平均值 [21]。使用了 [21] 中的标准颜色增强。我们在每次卷积之后和激活之前采用批量归一化(BN)[16],遵循 [16]。我们按照 [13] 中的方法初始化权重,并从头开始训练所有普通/残差网络。我们使用小批量大小为 256 的 SGD。学习率从 0.1 开始,并在误差平稳时除以 10,并且模型最多训练 60 × 104 次迭代。我们使用 0.0001 的权重衰减和 0.9 的动量。我们不使用 dropout [14],遵循 [16] 中的做法。在测试中,对于比较研究,我们采用标准的 10 作物测试 [21]。为了获得最佳结果,我们采用 [41,13] 中的完全卷积形式,并在多个尺度上平均分数(调整图像大小,使短边位于 {224;256;384;480;640})。 # 4 实验 ## 4.1 ImageNet 分类 我们在包含 1000 个类别的 ImageNet 2012 分类数据集 [36] 上评估我们的方法。 模型在 128 万张训练图像上进行训练,并在 5 万张验证图像上进行评估。 我们还获得了测试服务器报告的 100k 测试图像的最终结果。 我们评估 top-1 和 top-5 错误率。 **普通网络。** 我们首先评估 18 层和 34 层的普通网络。 34层素网如图3(中)。 18层素网也是类似的形式。 有关详细架构,请参见表 1。 ![image-20210908092625781](https://img-blog.csdnimg.cn/img_convert/5a44a8840af6c31abf6c41387cb8d32b.png) 表 2 中的结果表明,较深的 34 层素网比较浅的 18 层素网具有更高的验证误差。 为了揭示原因,在图 4(左)中,我们比较了他们在训练过程中的训练/验证错误。 我们观察到了退化问题——34 层普通网络在整个训练过程中具有更高的训练误差,即使 18 层普通网络的解空间是 34 层网络的子空间。 ![image-20210908092657076](https://img-blog.csdnimg.cn/img_convert/6938cf7ed9c46d78f499e51c284f7662.png) ![image-20210908092717427](https://img-blog.csdnimg.cn/img_convert/670b0a65136c1c01293f4bdb3292477b.png) 我们认为这种优化困难不太可能是由梯度消失引起的。 这些普通网络使用 BN [16] 进行训练,确保前向传播的信号具有非零方差。 我们还验证了反向传播的梯度表现出 BN 的健康规范。 因此,前向或后向信号都不会消失。 事实上,34层的普通网仍然能够达到有竞争力的精度(表3),这表明求解器在一定程度上是有效的。 我们推测深平原网络的收敛速度可能呈指数级低,这会影响训练误差的减少。 未来将研究这种优化困难的原因。 **残差网络。** 接下来我们评估 18 层和 34 层残差网络(ResNets)。 基线架构与上述普通网络相同,期望在每对 3×3 过滤器中添加一个快捷连接,如图 3(右)所示。 在第一个比较中(表 2 和图 4 右),我们对所有快捷方式使用恒等映射,对增加维度使用零填充(选项 A)。 因此,与普通对应物相比,它们没有额外的参数。 我们从表 2 和图 4 中得到了三个主要观察结果。 首先,通过残差学习逆转了情况——34 层 ResNet 比 18 层 ResNet 好(2.8%)。 更重要的是,34 层 ResNet 表现出相当低的训练误差,并且可以推广到验证数据。 这表明退化问题在此设置中得到了很好的解决,我们设法从增加的深度中获得了精度增益。 其次,与普通对应物相比,34 层 ResNet 将 top-1 错误减少了 3.5%(表 2),这是由于成功减少了训练错误(图 4 右与左)。 这种比较验证了残差学习在极深系统上的有效性。 最后,我们还注意到 18 层普通/残差网络相当准确(表 2),但 18 层 ResNet 收敛速度更快(图 4 右与左)。 当网络“不太深”(这里是 18 层)时,当前的 SGD 求解器仍然能够找到对普通网络的良好解决方案。 在这种情况下,ResNet 通过在早期提供更快的收敛来简化优化。 恒等与投影快捷方式。 我们已经证明无参数的身份快捷方式有助于训练。 接下来我们研究投影快捷方式(Eqn.(2))。 在表 3 中,我们比较了三个选项: (A) 零填充快捷方式用于增加维度,并且所有快捷方式都是无参数的(与表 2 和图 4 右图相同); (B) 投影快捷方式用于增加维度,其他快捷方式为恒等式; (C) 所有捷径都是投影 ![image-20210908094351371](https://img-blog.csdnimg.cn/img_convert/539b7d36511509962829a9394e88f213.png) 表 3 显示所有三个选项都比普通选项好得多。 B 略好于 A。我们认为这是因为 A 中的零填充维度确实没有残差学习。 C 略好于 B,我们将此归因于许多(十三个)投影快捷方式引入的额外参数。 但是 A/B/C 之间的微小差异表明投影捷径对于解决退化问题并不是必不可少的。 所以我们在本文的其余部分不使用选项 C,以减少内存/时间复杂度和模型大小。 恒等的快捷方式对于不增加下面介绍的瓶颈架构的复杂性特别重要。 **更深层次的瓶颈架构。** 接下来,我们将描述我们用于 ImageNet 的更深层次的网络。 由于担心我们可以负担得起的训练时间,我们将构建块修改为瓶颈设计4。 对于每个残差函数 F,我们使用 3 层的堆栈而不是 2 层(图 5)。 这三层分别是 1×1、3×3 和 1×1 卷积,其中 1×1 层负责减少然后增加(恢复)维度,使 3×3 层成为输入/输出维度较小的瓶颈 . 图 5 显示了一个示例,其中两种设计具有相似的时间复杂度。 ![image-20210908094928364](https://img-blog.csdnimg.cn/img_convert/c0453d6ba4809bdac0a7b8bc783cab83.png) 无参数身份快捷方式对于瓶颈架构尤为重要。 如果将图 5(右)中的恒等快捷方式替换为投影,可以看出时间复杂度和模型大小都增加了一倍,因为快捷方式连接到两个高维端。 因此,恒等的快捷方式为瓶颈设计带来了更有效的模型。 50 层 ResNet:我们用这个 3 层瓶颈块替换 34 层网络中的每个 2 层块,从而产生 50 层 ResNet(表 1)。 我们使用选项 B 来增加维度。 这个模型有 38 亿次 FLOP。 101 层和 152 层 ResNet:我们通过使用更多的 3 层块构建 101 层和 152 层 ResNet(表 1)。 值得注意的是,尽管深度显着增加,但 152 层 ResNet(113 亿 FLOP)的复杂度仍然低于 VGG-16/19 网络(15.3/196 亿 FLOP)。 50/101/152 层的 ResNet 比 34 层的 ResNet 准确度高很多(表 3 和 4)。 我们没有观察到退化问题,因此可以从显着增加的深度中获得显着的精度提升。 所有评估指标都见证了深度的好处(表 3 和 4)。 ![image-20210908095223012](https://img-blog.csdnimg.cn/img_convert/3d58a4847e5fc9a32bab288c4e89f411.png) 与最先进方法的比较。 在表 4 中,我们与之前最好的单模型结果进行了比较。 我们的基线 34 层 ResNets 已经达到了非常有竞争力的准确性。 我们的 152 层 ResNet 具有 4.49% 的单模型 top-5 验证错误。 这个单一模型的结果优于之前所有的集成结果(表 5)。 我们将六个不同深度的模型组合成一个整体(提交时只有两个 152 层的模型)。 这导致测试集上 3.57% 的 top-5 错误(表 5)。 此条目在 ILSVRC 2015 中获得第一名 。 ![在这里插入图片描述](https://img-blog.csdnimg.cn/313b3f5faa794b95a2689e06de36ed8a.png?x-oss-process=image/watermark,type_ZHJvaWRzYW5zZmFsbGJhY2s,shadow_50,text_Q1NETiBAQUnmtak=,size_20,color_FFFFFF,t_70,g_se,x_16) ## 4.2 CIFAR-10 和分析 我们对 CIFAR-10 数据集 [20] 进行了更多研究,该数据集由 10 个类别的 50k 训练图像和 10k 测试图像组成。 我们展示了在训练集上训练并在测试集上进行评估的实验。 我们的重点是极深网络的行为,而不是推动最先进的结果,因此我们有意使用如下简单的架构。 普通/残差架构遵循图 3(中/右)中的形式。 网络输入是 32×32 的图像,减去每个像素的平均值。 第一层是 3×3 卷积。 然后我们在大小为 f32 的特征图上使用 3×3 卷积的 6n 层堆栈; 16; 分别为 8g,每个特征图大小有 2n 层。 过滤器数量为f16; 32; 分别为64g。 子采样由步长为 2 的卷积执行。 网络以全局平均池化结束,一个 10 路全连接 层和 softmax。 总共有 6n+2 个堆叠的加权层。 下表总结了架构: ![image-20210908130032559](https://img-blog.csdnimg.cn/img_convert/82bd61bd51c2d7619a0e75da8e122b1b.png) 当使用快捷连接时,它们连接到成对的 3×3 层(总共 3n 个快捷方式)。 在这个数据集上,我们在所有情况下都使用身份快捷方式(即选项 A),因此我们的残差模型与普通模型具有完全相同的深度、宽度和参数数量。 我们使用 0.0001 的权重衰减和 0.9 的动量,并采用 [13] 和 BN [16] 中的权重初始化,但没有 dropout。 这些模型在两个 GPU 上以 128 的 minibatch 大小进行训练。 我们从 0.1 的学习率开始,在 32k 和 48k 次迭代时将其除以 10,并在 64k 次迭代时终止训练,这是在 45k/5k train/val 拆分上确定的。 我们按照 [24] 中的简单数据增强进行训练:每边填充 4 个像素,从填充的图像或其水平翻转中随机采样一个 32×32 的裁剪。 为了测试,我们只评估原始 32×32 图像的单一视图。 我们比较 n = {3,5, 7, 9},得到20、32、44和56层网络。 图 6(左)显示了普通网的行为。 深度普通网络的深度增加,并且在更深时表现出更高的训练误差。 这种现象类似于 ImageNet(图 4,左)和 MNIST(见 [42])上的现象,表明这种优化难度是一个基本问题 ![image-20210908132914411](https://img-blog.csdnimg.cn/img_convert/a8e55b9da21b39890cf541b3d14eddcc.png) 图 6(中)显示了 ResNets 的行为。 同样类似于 ImageNet 的情况(图 4,右),我们的 ResNet 设法克服了优化困难,并在深度增加时展示了准确性的提高。 我们进一步探索了导致 110 层 ResNet 的 n = 18。 在这种情况下,我们发现 0.1 的初始学习率稍微太大而无法开始收敛 5。 所以我们用0.01来预热训练,直到训练误差低于80%(大约400次迭代),然后回到0.1继续训练。 其余的学习计划和之前一样。 这个 110 层的网络收敛性很好(图 6,中)。 它的参数比 FitNet [35] 和 Highway [42](表 6)等其他深而薄的网络少,但仍属于最先进的结果(6.43%,表 6)。 ![image-20210908133135591](https://img-blog.csdnimg.cn/img_convert/8e33fdc118eecb0cf1c4a6abfd8f0fbc.png) **层响应分析。** 图 7 显示了层响应的标准偏差 (std)。 响应是每个 3×3 层的输出,在 BN 之后和其他非线性(ReLU/加法)之前。 对于 ResNets,该分析揭示了残差函数的响应强度。 图 7 显示 ResNet 的响应通常比它们的普通对应物小。 这些结果支持我们的基本动机(第 3.1 节),即残差函数通常比非残差函数更接近于零。 我们还注意到,更深的 ResNet 具有更小的响应幅度,如图 7 中 ResNet-20、56 和 110 之间的比较所证明的那样。当有更多层时,ResNet 的单个层倾向于较少地修改信号 。 ![image-20210908133308401](https://img-blog.csdnimg.cn/img_convert/1cfbb75e67fcd660378a48d8caf2bc62.png) 探索超过 1000 个层。 我们探索了一个超过 1000 层的深度模型。 我们将 n = 200 设置为 1202 层的网络,其训练如上所述。 我们的方法没有显示优化困难,这个 103 层网络能够实现训练误差 <0.1%(图 6,右)。 它的测试误差还是相当不错的(7.93%,表6)。 但是在如此激进的深度模型上仍然存在未解决的问题。 这个 1202 层网络的测试结果比我们的 110 层网络差,尽管两者都有相似的训练误差。 我们认为这是因为过度拟合。 对于这个小数据集,1202 层网络可能会不必要地大 (19.4M)。 应用强正则化(例如 maxout [10] 或 dropout [14])以获得该数据集的最佳结果([10, 25, 24, 35])。 在本文中,我们没有使用 maxout/dropout,只是简单地通过设计的深和薄架构强加正则化,而不会分散对优化困难的关注。 但是结合更强的正则化可能会改善结果,我们将在未来研究。 ## 4.3 PASCAL 和 MS COCO 上的物体检测 我们的方法在其他识别任务上具有良好的泛化性能。 表 7 和表 8 显示了 PASCAL VOC 2007 和 2012 [5] 和 COCO [26] 上的对象检测基线结果。 我们采用 Faster R-CNN [32] 作为检测方法。 在这里,我们对用 ResNet-101 替换 VGG-16 [41] 的改进感兴趣。 使用两种模型的检测实现(见附录)是相同的,所以收益只能归因于更好的网络。 最值得注意的是,在具有挑战性的 COCO 数据集上,我们获得了 COCO 标准指标 (mAP@[.5,.95]) 6.0% 的提升,相对提升了 28%。 这种增益完全是由于学习到的表示。![image-20210908133834846](https://img-blog.csdnimg.cn/img_convert/1b843653bf447ca55abe5a52d36b0616.png) 基于深度残差网络,我们在 ILSVRC & COCO 2015 竞赛的多个赛道中获得第一名:ImageNet 检测、ImageNet 定位、COCO 检测和 COCO 分割。 详细信息在附录中。
评论(0)