RT-DETR:超越YOLO系列的实时目标检测
目标检测是计算机视觉中的一种重要任务,使AI系统感知、推理、理解目标。目标检测主要分为两种范式,一种是基于卷积网络的结构,另一种是基于Transfomer的结构。实时目标检测是满足工业应用场景的很重要的研究方向,此前基本是属于卷积网络的范式,然而这种结构通常需要使用非极大值抑制的后处理方法,难以被优化且不够鲁棒,导致检测器推理速度受限。而DETR不依赖于非极大值抑制,受限于模型自身的计算量。所以如何利用它不需要后处理的特性和降低本身的计算成为一个关键的研究方向。
本文提出了第一个满足实时性要求的DETR模型RT-DETR[1]。首先作者提出了一种高效的混合编码器来处理多尺度的特征,其次提出了感知IoU的查询选择机制,为解码器提供高质量的初始化查询键。此外,该方法在推理时具有灵活的速度调整方式,可以使用不同的解码层,而不用重新训练。本文方法的精度和推理速度在多个数据集上超过了YOLO[2]系列检测器,且对比一些先进的检测器也有一定优势。
该方法的总体框架如上图所示,该模型首先只是用骨干网络输出的最后三层特征图。作者提出了解耦的编码器结构,设计了AIFI(尺度内特征交互)和CCFM(跨尺度特征融合)如下图所示,此外吧编码器层数从6层减少到1层,大大减少了计算量。此外训练时加入了IoU-Aware的查询选择机制,针对分类score和IoU未必一致而设计的,改进后可以提供更高分类分数和高IoU分数的解码器特征。另外作者通过控制transformer层数和Repblock数量实现了模型尺度的可调整性。
作者在多个数据集上进行实验,从以下的实验结果来看,该方法的性能在各个benchmark中达到SOTA效果,相比其他实时检测方法提升效果显著,作者也证明了各个创新点的有效性。
[1] Lv W, Xu S, Zhao Y, et al. Detrs beat yolos on real-time object detection[J]. arXiv preprint arXiv:2304.08069, 2023.
[2] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.
- 点赞
- 收藏
- 关注作者
评论(0)