- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

YOLOv4：目标检测的最佳速度和精度

迪菲赫尔曼发表于 2023/01/03 13:32:39 2023/01/03

【摘要】《YOLOv4：Optimal Speed and Accuracy of Object Detection》 YOLOv4：目标检测的最佳速度和精度《YOLOv4：Optimal Speed and Accuracy of Object Detection》 YOLOv4：目标检测的最佳速度和精度 1.YOLOv4介绍 2.YOLOv4网络结构 2.1 Backbone改进 2.2 ...

《YOLOv4：Optimal Speed and Accuracy of Object Detection》

YOLOv4：目标检测的最佳速度和精度

1.YOLOv4介绍

Yolov4其实并没有提出什么创新点，主要是对当时领域内的一些Tricks（WRC、CSP、CmBN、SAT、Mish激活、Mosaic数据增强，DropBlock和CIoU）进行了大量的实验，并且对模型的精度和速度进行了平衡；最终在MS COCO数据集上实现了43.5% AP (65.7% AP50)，在Tesla V100的实时速度为65帧/秒。

YOLOv4一共有如下三点贡献：

1.开发了一个高效、强大的目标检测模型。它使每个人都可以使用1080ti或2080ti GPU来训练一个非常快速和准确的目标检测器

2.验证了最先进的 Bag-of-Freebies和 Bag-of-Specials对象检测在检测器训练时的影响。

3.对现有的方法进行了改进，使其更加高效，更适合于单个GPU的训练，包括CBN，PAN，SAM等。

图1：YOLOv4与其他最先进的物体探测器的比较。在性能相当的情况下，YOLOv4运行速度是EfficientDet的两倍。YOLOv4将YOLOv3的AP和FPS分别提升10%和12%。

2.YOLOv4网络结构

YOLOv4结构组成如下：

• Backbone: CSPDarknet53

• Neck: SPP , PAN

• Head: YOLOv3

2.1 Backbone改进

YOLOv4借鉴了CSPNet（Cross Stage Partial Networks，跨阶段局部网络）的思想，对YOLOv3的Darknet53网络进行了改进，形成了全新的主干网路结构–CSPDarknet53；

采用CSP结构有如下几点好处：

1.加强CNN学习能力

2.删除计算瓶颈

3.减少内存成本

CSPNet实际上是基于Densnet的思想，即首先将数据划分成Part 1和Part 2两部分，Part 2通过dense block发送副本到下一个阶段，接着将两个分支的信息在通道方向进行Concat拼接，最后再通过Transition层进一步融合。CSPNet思想可以和ResNet、ResNeXt和DenseNet结合，目前主流的有CSPResNext50 和CSPDarknet53两种改造Backbone网络。

改进后的主干网络结构如下图所示：

2.2 Neck改进

2.2.1 SPP结构介绍

SPP-Net全称Spatial Pyramid Pooling Networks，主要是用来解决不同尺寸的特征图如何进入全连接层的，如下2图所示，下图中对任意尺寸的特征图直接进行固定尺寸的池化，来得到固定数量的特征。

2.2.2 PAN结构介绍

PAN（Path Aggregation Network）结构其实就是在FPN（从顶到底信息融合）的基础上加上了从底到顶的信息融合，如下图(PAN结构图)所示。

FPN结构图

PAN结构图

2.2.3 YOLOv4 PAN结构介绍

YOLOv4在原始PAN结构上进行了一点改进，如下图所示。图(a)是PAN论文中的原始融合方式，即特征层之间融合时是直接通过addition的方式进行融合的，但在YOLOv4中的PAN是通过在通道方向Concat拼接的方式进行融合的。

3.YOLOv4训练策略

这里首先介绍两个概念：Bag of Freebies和Bag of Specials

Bag of Freebies：指的是那些不增加模型复杂度，也不增加推理的计算量的训练方法技巧，来提高模型的准确度。目标检测经常采用的符合Bag of Freebies定义的是数据增强。数据增强的目的是增加输入图像的可变性，使所设计的目标检测模型对从不同环境中获取的图像具有更高的鲁棒性。例如，光学畸变和几何畸变是两种常用的数据增强方法，它们对目标检测有明显的好处。

Bag of Specials：指的是那些增加少许模型复杂度或计算量的训练技巧，但可以显著提高模型的准确度。一般来说，这些插件模块是为了增强模型中的某些属性，如放大感受野、引入注意机制或增强特征集成能力等。

1.Backbone采用的Bag of Freebies：

CutMix，Mosaic数据增强， DropBlock，类标签平滑

2.Backbone采用的Bag of Specials：

Mish激活函数， Cross-stage partial connections (CSP)，多输入加权残差连接(MiWRC)

3.Detector采用的Bag of Freebies：

CIoU损失，CmBN, DropBlock正则化，Mosaic数据增强，自对抗训练，消除网格敏感性，单目标使用多 Anchor,余弦退火，最优超参数，随机训练形状

4.Detector采用的Bag of Specials：

Mish激活、SPP、SAM、PAN路径聚合、DIoU-NMS

3.1BackBone训练策略

3.1.1 数据增强

3.1.2 DropBlock正则化

DropBlock方法的引入是为了克服Dropout随机丢弃特征的主要缺点，Dropout被证明是全连接网络的有效策略，但在特征空间相关的卷积层中效果不佳。DropBlock技术在称为块的相邻相关区域中丢弃特征。这样既可以实现生成更简单模型的目的，又可以在每次训练迭代中引入学习部分网络权值的概念，对权值矩阵进行补偿，从而减少过拟合。如下图：

3.1.3 类标签平滑

训练样本中会出现少量的错误样本，而模型过于相信训练样本，在训练过程中调整参数极力去逼近样本，这就导致了这些错误样本的负面影响变大，因此需要在一定程度上减缓这些错误样本的影响，使得模型避免过于相信训练样本。

消融实验结果：

表1:BoF和Mish对CSPResNeXt-50分类精度的影响。

表2 BoF和Mish对CSPDarknet-53分类器精度的影响。

表3: Bag-of-Freebies的消融研究。(CSPResNeXt50-PANet-SPP 512 x512)。

表4:Bag of Specials的消融实验。(Size 512 x512)。

4.BackBone推理策略

4.1 Mish激活函数

Mish是一个平滑的曲线，平滑的激活函数允许更好的信息深入神经网络，从而得到更好的准确性和泛化；在负值的时候并不是完全截断，允许比较小的负梯度流入。实验中，随着层深的增加，ReLU激活函数精度迅速下降，而Mish激活函数在训练稳定性、平均准确率(1%-2.8%)、峰值准确率(1.2% - 3.6%)等方面都有全面的提高。如下图：

4.2 MiWRC策略

MiWRC是Multi-input weighted residual connections的简称，在BiFPN中，提出了用MiWRC来执行标尺度级重加权，添加不同尺度的特征映射。我们已经讨论了FPN和PAN作为例子。下面的图(d)显示了另一种被称为BiFPN的neck设计，根据BiFPN的论文，该设计具有更好的准确性和效率权衡。

(a)FPN引入自顶向下的路径，将多尺度特征从3级融合到7级(P3-P7)；

(b)PANET在FPN之上增加一个额外的自下而上的路径；

©NAS-FPN使用神经网络搜索找到一个不规则的特征拓扑网络，然后重复应用同一块拓扑结构；

(d)是这里的BiFPN，具有更好的准确性和效率权衡。将该neck放到整个整个网络的连接中如下图：

上图采用EfficientNet作为骨干网络，BiFPN作为特征网络，共享class/box预测网络。基于不同的资源约束，BiFPN层和类/盒网层都被重复多次。

5.检测头训练策略

5.1 CIoU-loss

CIoU就是在DIoU的基础上增加了检测框尺度的loss，增加了长和宽的loss，这样预测框就会更加的符合真实框。

5.2 CmBN策略

BN：无论每个batch被分割为多少个mini batch，其算法就是在每个mini batch前向传播后统计当前的BN数据（即每个神经元的期望和方差）并进行Nomalization，BN数据与其他mini batch的数据无关。

CBN：每次iteration中的BN数据是其之前n次数据和当前数据的和（对非当前batch统计的数据进行了补偿再参与计算），用该累加值对当前的batch进行Nomalization。好处在于每个batch可以设置较小的size。

CmBN：只在每个Batch内部使用CBN的方法，若每个Batch被分割为一个mini batch，则其效果与BN一致；若分割为多个mini batch，则与CBN类似，只是把mini batch当作batch进行计算，其区别在于权重更新时间点不同，同一个batch内权重参数一样，因此计算不需要进行补偿。

5.3 自对抗训练(SAT)

SAT(Self-Adversarial Training)为一种新型数据增强方式。在第一阶段，神经网络改变原始图像而不是网络权值。通过这种方式，神经网络对其自身进行一种对抗式的攻击，改变原始图像，制造图像上没有目标的假象。在第二阶段，训练神经网络对修改后的图像进行正常的目标检测。

5.4 消除网格敏感度

对于 $b_x = c_x$ 和 $b_x=c_x + 1$ 的情况，我们需要 $t_x$ 分别具有很大的负值和正值。但我们可以将与一个比例因子(>1.0)相乘，从而更轻松地实现这一目标

6.检测头推理策略

6.1 SAM模块

YOLOv4将SAM从空间注意修改为点注意,下图(a)图为原始SAM模块,下(b)图为改进的SAM模块

6.2 DIoU-NMS

根据DIOU的论文，如果只是单纯的使用NMS，即是使用IoU作为阈值去筛掉其他预测框时，当两个物体过于接近时，很有可能另外一个物体的预测框就被滤除了。

就像下图中的摩托。使用DIOU-NMS可以一定程度上提升对于靠近的物体的检测

总结

最后放上一些不同模型的速度和精度的比较。(一些文章仅说明了他们的探测器针对其中一个GPU的FPS：Maxwell/Pascal/Volta),可以看到,YOLOv4在速度和精度方面都优于最快和最准确的探测器。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

YOLOv4：目标检测的最佳速度和精度

《YOLOv4：Optimal Speed and Accuracy of Object Detection》

YOLOv4：目标检测的最佳速度和精度

1.YOLOv4介绍