【云驻共创】CrowdDetection,解决拥挤场景下的目标检测难题

举报
咸蛋超人 发表于 2021/08/05 17:04:46 2021/08/05
【摘要】 面对拥挤场景下如何解决目标检测的问题,旷世研究院在CVPR 2020 Oral上发表的论文《Detection in Crowded Scenes: One Proposal, Multiple Predictions》,提出了目标检测模型CrowdDetection。 一、为什么要做这项研究首先了解一下计算机视觉对图片的理解,从浅到深可以分为五个层次,分别是图像类型、目标检测、语义分割、实...

面对拥挤场景下如何解决目标检测的问题,旷世研究院在CVPR 2020 Oral上发表的论文《Detection in Crowded Scenes: One Proposal, Multiple Predictions》,提出了目标检测模型CrowdDetection。

 

一、为什么要做这项研究

首先了解一下计算机视觉对图片的理解,从浅到深可以分为五个层次,分别是图像类型、目标检测、语义分割、实例分割和全景分割系。

那这五个层次到底是什么意思呢,以下图举例说明:

1.图像分类(Image Classification):可以识别出这张图像里面有人、羊、狗。

2.目标检测(Object detection):不光知道图像里有什么,还要知道在哪里并用边框标出来。

3.语义分割(Semantic segmentation):在图像分类与目标检测基础上,将轮廓识别出来。

4.实力分割(Instance segmentation):在前面的基础上,将每一只羊单独分出来。

5.全景分割(Panoramic segmentation):图像的背景是什么也要识别出来。

CrowdDetection重点要解决的是目标检测问题。

 

1.1目标检测模型的分类

这是一个常规的目标检测流程,输入是一张猫的图片,根据深度学习,目标框架完成,为了把结果可视化,把两个向量做个处理,最终输出一张图片,图片上有分类显示是猫并标出位置。

目标检测模型分为两类:Anchor BasedAnchor Free。

Anchor Based

  • Two-stage Methods: Faster-RCNN, FPN, Mask RCNN…
  • One-stage Methods: SSD, YOLO, RetinaNet…

Anchor Free

  • Key point Based: CornerNet, CenterNet, ExtremeNet…
  • Segmentation Based: FCOS, Foveabox, FSAF…

 

CrowdDetection主要是Anchor Based的目标检测框架。Anchor Based同时又分为Two-stage和One-stage,第一类方法是准确度高一些,但是速度慢,但是第二类算法是速度快,但是准确性要低一些。

 

 

二、历史工作

2.1非极大值抑制

CrowdDetection到底能解决哪一方面的问题呢?在前人的工作上做出了哪一些改进?

首先来讲一讲非极大值抑制(Non-Maximum Suppression,NMS)


一般目标检测的标准流程:提供一张图片→通过特征提取获得一大堆候选框→将候选框进行分类→通过NMS只保留一个框

其实就是一个物体预测结果包含多个候选框,经过非极大值抑制后,仅保留概率最大的预测结果。

 

2.2 Crowd Hunman

这种候处理会有哪些问题呢?图中两挨着的小孩,提取出了很多候选框,但其实应该框住两个人的,但却被NMS舍弃掉了,只保留了一个人。运用到生活场景,例如检票口,人多的时候如果两人凑的比较近,摄像头只能识别出一个人,容易造成逃票。

那在密集场景的检测如何解决这个问题呢?要解决这些问题需要加入比较复杂的NMS机制,而CrowdHuman数据集数据量比较大,上面都是一些密集的同类的事物,使得NMS失效。

从下图中可以直观感受到它的数据集,这里也提到一个IoU交并比,指的是两个框的相对的重叠度。


 

三、CrowdDetection的算法创新点

基于最基本的目标检测的流程做了三个创新点Set NMS、EMD Loss、RM。这三点的核心是“One proposal, Multiple preditions”,即一个候选框生成多个预设。

 

3.1 Set NMS

NMS:有四个候选框,IoU交并比较高,即相对重叠度较高,就要通过NMS将多余的候选框筛掉。如图,我们一般会设置一个预值为0.5,当IoU小于0.5,候选框被保留,当IoU大于0.5,将会经过NMS处理,只保留数值大的,所以最后得到A和D。

 

Set NMS又是如何处理的呢?依然是四个候选框,其他值不变,得知A和C来源于同一个proposal,那就不做NMS,最后得到A、C、D。

 

3.2 EMD Loss

定位是一个回归问题,对于一张图片,真值在这里,候选框需要向真值回归,离它越近越好差距也会越小,它需要算出来,反向再传回去。

如果有一个proposal有两个候选框,候选框如何向各自的真值回归,这就需要每个候选框与每个真值进行match计算其loss,得到的数值进行比较,将最小值传回去。

3.3 Refinement Module

虽然是为了解决高度重叠的问题,但其实也有部分稀疏的场景,所以部分场景需要用到Refinement Module来重新计算出EMD Loss。

 

四、与其他方法对比

4.1 整体对比

CrowdDetection运用了这些创新点,最终效果如何呢?通过一组实验数据结果可以看出,CrowdDetection的AP和JI最高,MR最低,全面超越其他方法。

从可视化结果来看,这个效果也是很明显的,第一行图片很多重叠的虚线都是漏检的,而下方运用CrowdDetection的都能被检出。

 

4.2 Set NMS对比

通过下方实验数据可以看出,运用了Set NMS的稀疏场景和密集场景都有所提高。

 


AP和JI上升明显,MR下降明显,如果运用了RM效果也稍有提高


 

4.3 Refinement Module对比

基础检测上加上MIP、Set NMS、RM以后,AP、MR、JI的效果变化,如下:

 

4.4 关于K值的设定

预设一个k值,即一个proposal回归几个框,由图可知,预设k值为2时,一个proposal回归2个框,效果最好。

本文整理自【内容共创系列】华为云签约作者征集令,认证签约作者赢取专属权益!

活动链接:https://bbs.huaweicloud.com/blogs/281988

 

 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。