【云驻共创】CrowdDetection,解决拥挤场景下的目标检测难题
面对拥挤场景下如何解决目标检测的问题,旷世研究院在CVPR 2020 Oral上发表的论文《Detection in Crowded Scenes: One Proposal, Multiple Predictions》,提出了目标检测模型CrowdDetection。
一、为什么要做这项研究
首先了解一下计算机视觉对图片的理解,从浅到深可以分为五个层次,分别是图像类型、目标检测、语义分割、实例分割和全景分割系。
那这五个层次到底是什么意思呢,以下图举例说明:
1.图像分类(Image Classification):可以识别出这张图像里面有人、羊、狗。
2.目标检测(Object detection):不光知道图像里有什么,还要知道在哪里并用边框标出来。
3.语义分割(Semantic segmentation):在图像分类与目标检测基础上,将轮廓识别出来。
4.实力分割(Instance segmentation):在前面的基础上,将每一只羊单独分出来。
5.全景分割(Panoramic segmentation):图像的背景是什么也要识别出来。
CrowdDetection重点要解决的是目标检测问题。
1.1目标检测模型的分类
这是一个常规的目标检测流程,输入是一张猫的图片,根据深度学习,目标框架完成,为了把结果可视化,把两个向量做个处理,最终输出一张图片,图片上有分类显示是猫并标出位置。
目标检测模型分为两类:Anchor Based和Anchor Free。
Anchor Based
- Two-stage Methods: Faster-RCNN, FPN, Mask RCNN…
- One-stage Methods: SSD, YOLO, RetinaNet…
Anchor Free
- Key point Based: CornerNet, CenterNet, ExtremeNet…
- Segmentation Based: FCOS, Foveabox, FSAF…
CrowdDetection主要是Anchor Based的目标检测框架。Anchor Based同时又分为Two-stage和One-stage,第一类方法是准确度高一些,但是速度慢,但是第二类算法是速度快,但是准确性要低一些。
二、历史工作
2.1非极大值抑制
CrowdDetection到底能解决哪一方面的问题呢?在前人的工作上做出了哪一些改进?
首先来讲一讲非极大值抑制(Non-Maximum Suppression,NMS)
一般目标检测的标准流程:提供一张图片→通过特征提取获得一大堆候选框→将候选框进行分类→通过NMS只保留一个框
其实就是一个物体预测结果包含多个候选框,经过非极大值抑制后,仅保留概率最大的预测结果。
2.2 Crowd Hunman
这种候处理会有哪些问题呢?图中两挨着的小孩,提取出了很多候选框,但其实应该框住两个人的,但却被NMS舍弃掉了,只保留了一个人。运用到生活场景,例如检票口,人多的时候如果两人凑的比较近,摄像头只能识别出一个人,容易造成逃票。
那在密集场景的检测如何解决这个问题呢?要解决这些问题需要加入比较复杂的NMS机制,而CrowdHuman数据集数据量比较大,上面都是一些密集的同类的事物,使得NMS失效。
从下图中可以直观感受到它的数据集,这里也提到一个IoU交并比,指的是两个框的相对的重叠度。
三、CrowdDetection的算法创新点
基于最基本的目标检测的流程做了三个创新点Set NMS、EMD Loss、RM。这三点的核心是“One proposal, Multiple preditions”,即一个候选框生成多个预设。
3.1 Set NMS
NMS:有四个候选框,IoU交并比较高,即相对重叠度较高,就要通过NMS将多余的候选框筛掉。如图,我们一般会设置一个预值为0.5,当IoU小于0.5,候选框被保留,当IoU大于0.5,将会经过NMS处理,只保留数值大的,所以最后得到A和D。
Set NMS又是如何处理的呢?依然是四个候选框,其他值不变,得知A和C来源于同一个proposal,那就不做NMS,最后得到A、C、D。
3.2 EMD Loss
定位是一个回归问题,对于一张图片,真值在这里,候选框需要向真值回归,离它越近越好差距也会越小,它需要算出来,反向再传回去。
如果有一个proposal有两个候选框,候选框如何向各自的真值回归,这就需要每个候选框与每个真值进行match计算其loss,得到的数值进行比较,将最小值传回去。
3.3 Refinement Module
虽然是为了解决高度重叠的问题,但其实也有部分稀疏的场景,所以部分场景需要用到Refinement Module来重新计算出EMD Loss。
四、与其他方法对比
4.1 整体对比
CrowdDetection运用了这些创新点,最终效果如何呢?通过一组实验数据结果可以看出,CrowdDetection的AP和JI最高,MR最低,全面超越其他方法。
从可视化结果来看,这个效果也是很明显的,第一行图片很多重叠的虚线都是漏检的,而下方运用CrowdDetection的都能被检出。
4.2 Set NMS对比
通过下方实验数据可以看出,运用了Set NMS的稀疏场景和密集场景都有所提高。
AP和JI上升明显,MR下降明显,如果运用了RM效果也稍有提高
4.3 Refinement Module对比
基础检测上加上MIP、Set NMS、RM以后,AP、MR、JI的效果变化,如下:
4.4 关于K值的设定
预设一个k值,即一个proposal回归几个框,由图可知,预设k值为2时,一个proposal回归2个框,效果最好。
本文整理自【内容共创系列】华为云签约作者征集令,认证签约作者赢取专属权益!
活动链接:https://bbs.huaweicloud.com/blogs/281988
- 点赞
- 收藏
- 关注作者
评论(0)