基于深度学习的小目标检测

举报
阿炜小菜鸡 发表于 2022/06/05 09:10:36 2022/06/05
【摘要】 目标检测的主要目的是在图像中快速精准地识别定位出预定义类别的目标。而随着深度学习技术的不断发展,检测算法在相应行业大、中目标已达到了不错的成效。鉴于小目标在图像中尺寸较小、特征不全、与图像中背景差异大等特点,基于深度学习的小目标检测算法性能仍需要进一步提升和优化;小目标检测在无人驾驶、医疗诊断、无人机导航等多个领域都有着广泛的需求,因此研究有着很高的应用价值。

     深度学习的快速发展使得目标检测技术获益匪浅,近年来深度学习已被广泛应用于目标检测领域。然而,小尺度目标在图像中的像素占比少,自身的语义信息较少。与目前较为成熟的大、中尺度的目标检测技术相对比,小目标检测的效果相对不佳,因此如何提高小目标的检测精度是目前计算机视觉领域的一个难点问题。

     微软公司提出的 MS COCO数据集中,将区域面积小于 32×32 像素值的目标定义为小目标。目前小目标检测性能相对较差的原因可以归结如下:(1)小目标自身固有的分辨率很低、像素占比少,因此目标检测网络提取到的有效信息是非常有限的。(2)输入图像通过卷积神经网络多次下采样后,会导致小目标的信息损失严重。(3)缺少大规模的小目标检测数据集,目前目标检测领域的常用数据集(如 SUN、PASCAL VOC、ImageNet等)大多是针对中型、大型尺度的目标进行检测。针对上述问题,国内外研究者提出了相应的改进方法,如:数据增强、多尺度特征融合和超分辨率等。

      首先,数据增强是一种有效的改进技巧,可以通过数据增强来增加小目标的样本数量。Kisanta 等人提出使用过采样和增强方法,先调整小目标的尺度(缩放范围是±20%)和位置(旋转范围是±15%),再复制小目标,然后将小目标粘贴到新位置并确保新粘贴的位置不与现有目标重叠,以此增加图像中小目标的数量。此外,YOLOv4中的 Mosaic 数据增强方法,也增加了小目标在训练集中的样本数量。

     其次,大多数目标检测方法都是利用卷积神经网络进行特征提取,而卷积神经网络大多采用的是最顶端的高层特征。小目标固有的分辨率低,经过多次下采样后特征图持续不断减小,导致小目标的细节信息丢失严重。多尺度特征融合方式的提出有效缓解了这一现象,在计算量消耗不大的同时增强了特征的表达能力,提高小目标检测的效果。FPN(特征金字塔网络)是典型的多尺度融合结构,它利用自上而下的路径和横向连接,将高分辨率的低层特征与丰富语义信息的高层特征进行融合,后来一些基于 FPN 的改进算法应运而生。

      最后,采用超分辨技术也是一种提高小目标检测精度的有效方法。感知生成对抗网络(Perceptual GAN)将生成对抗网络(GAN)应用于超分辨率技术上,挖掘小目标与常规目标之间的结构关联。感知生成对抗网络通过学习小目标与常规目标之间的映射关系,缩小不同尺度目标之间的特征差异,使小目标与常规目标有相似的特征表示,以达到提升小目标检测效果的目的。此后,也出现了一些其他基于 GAN 网络的改进方法,如 MTGAN。GAN 网络的优势在于,能够生成小目标特征相对明显且分辨率高的图像,从而对数据集进行一定的补充。

      综上,目前目标检测的主流算法是基于深度学习的,提升小目标检测的精度可以通过数据增强、多尺度融合、超分辨技术等方式。受到前人研究成果的启发,本文提出的改进算法利用 Mosaic 数据增强、多尺度特征融合方法,在 YOLOv5 目标检测算法基础之上,进行了一系列的改进。以 YOLOv5s 和 YOLOv5m 为基准,我们的改进算法在提升中、小型目标检测精度的同时,也基本维持了推理速度。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。