RT-DETR:超越YOLO系列的实时目标检测

举报
Hint 发表于 2023/07/28 15:57:00 2023/07/28
【摘要】 近年来,基于Transformer的端到端目标检测器越来越受到学术界的关注和研究。然而DETR复杂的计算量导致它很难在实际应用中落地,因此本文提出了第一个满足实时性要求的DETR模型RT-DETR[1]。

        目标检测是计算机视觉中的一种重要任务,使AI系统感知、推理、理解目标。目标检测主要分为两种范式,一种是基于卷积网络的结构,另一种是基于Transfomer的结构。实时目标检测是满足工业应用场景的很重要的研究方向,此前基本是属于卷积网络的范式,然而这种结构通常需要使用非极大值抑制的后处理方法,难以被优化且不够鲁棒,导致检测器推理速度受限。而DETR不依赖于非极大值抑制,受限于模型自身的计算量。所以如何利用它不需要后处理的特性和降低本身的计算成为一个关键的研究方向。

        本文提出了第一个满足实时性要求的DETR模型RT-DETR[1]。首先作者提出了一种高效的混合编码器来处理多尺度的特征,其次提出了感知IoU的查询选择机制,为解码器提供高质量的初始化查询键。此外,该方法在推理时具有灵活的速度调整方式,可以使用不同的解码层,而不用重新训练。本文方法的精度和推理速度在多个数据集上超过了YOLO[2]系列检测器,且对比一些先进的检测器也有一定优势。


         该方法的总体框架如上图所示,该模型首先只是用骨干网络输出的最后三层特征图。作者提出了解耦的编码器结构,设计了AIFI(尺度内特征交互)和CCFM(跨尺度特征融合)如下图所示,此外吧编码器层数从6层减少到1层,大大减少了计算量。此外训练时加入了IoU-Aware的查询选择机制,针对分类score和IoU未必一致而设计的,改进后可以提供更高分类分数和高IoU分数的解码器特征。另外作者通过控制transformer层数和Repblock数量实现了模型尺度的可调整性。

        作者在多个数据集上进行实验,从以下的实验结果来看,该方法的性能在各个benchmark中达到SOTA效果,相比其他实时检测方法提升效果显著,作者也证明了各个创新点的有效性。

[1] Lv W, Xu S, Zhao Y, et al. Detrs beat yolos on real-time object detection[J]. arXiv preprint arXiv:2304.08069, 2023.

[2] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 779-788.



【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。