- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【云驻共创】CrowdDetection，解决拥挤场景下的目标检测难题

咸蛋超人发表于 2021/08/05 17:04:46 2021/08/05

【摘要】面对拥挤场景下如何解决目标检测的问题，旷世研究院在CVPR 2020 Oral上发表的论文《Detection in Crowded Scenes: One Proposal, Multiple Predictions》，提出了目标检测模型CrowdDetection。一、为什么要做这项研究首先了解一下计算机视觉对图片的理解，从浅到深可以分为五个层次，分别是图像类型、目标检测、语义分割、实...

面对拥挤场景下如何解决目标检测的问题，旷世研究院在CVPR 2020 Oral上发表的论文《Detection in Crowded Scenes: One Proposal, Multiple Predictions》，提出了目标检测模型CrowdDetection。

一、为什么要做这项研究

首先了解一下计算机视觉对图片的理解，从浅到深可以分为五个层次，分别是图像类型、目标检测、语义分割、实例分割和全景分割系。

那这五个层次到底是什么意思呢，以下图举例说明：

1.图像分类（Image Classification）：可以识别出这张图像里面有人、羊、狗。

2.目标检测（Object detection）：不光知道图像里有什么，还要知道在哪里并用边框标出来。

3.语义分割（Semantic segmentation）：在图像分类与目标检测基础上，将轮廓识别出来。

4.实力分割（Instance segmentation）：在前面的基础上，将每一只羊单独分出来。

5.全景分割（Panoramic segmentation）：图像的背景是什么也要识别出来。

CrowdDetection重点要解决的是目标检测问题。

1.1目标检测模型的分类

这是一个常规的目标检测流程，输入是一张猫的图片，根据深度学习，目标框架完成，为了把结果可视化，把两个向量做个处理，最终输出一张图片，图片上有分类显示是猫并标出位置。

目标检测模型分为两类：Anchor Based和Anchor Free。

Anchor Based

Two-stage Methods: Faster-RCNN, FPN, Mask RCNN…
One-stage Methods: SSD, YOLO, RetinaNet…

Anchor Free

Key point Based: CornerNet, CenterNet, ExtremeNet…
Segmentation Based: FCOS, Foveabox, FSAF…

CrowdDetection主要是Anchor Based的目标检测框架。Anchor Based同时又分为Two-stage和One-stage，第一类方法是准确度高一些，但是速度慢，但是第二类算法是速度快，但是准确性要低一些。

二、历史工作

2.1非极大值抑制

CrowdDetection到底能解决哪一方面的问题呢？在前人的工作上做出了哪一些改进？

首先来讲一讲非极大值抑制（Non-Maximum Suppression，NMS）

一般目标检测的标准流程：提供一张图片→通过特征提取获得一大堆候选框→将候选框进行分类→通过NMS只保留一个框

其实就是一个物体预测结果包含多个候选框，经过非极大值抑制后，仅保留概率最大的预测结果。

2.2 Crowd Hunman

这种候处理会有哪些问题呢？图中两挨着的小孩，提取出了很多候选框，但其实应该框住两个人的，但却被NMS舍弃掉了，只保留了一个人。运用到生活场景，例如检票口，人多的时候如果两人凑的比较近，摄像头只能识别出一个人，容易造成逃票。

那在密集场景的检测如何解决这个问题呢？要解决这些问题需要加入比较复杂的NMS机制，而CrowdHuman数据集数据量比较大，上面都是一些密集的同类的事物，使得NMS失效。

从下图中可以直观感受到它的数据集，这里也提到一个IoU交并比，指的是两个框的相对的重叠度。

三、CrowdDetection的算法创新点

基于最基本的目标检测的流程做了三个创新点Set NMS、EMD Loss、RM。这三点的核心是“One proposal, Multiple preditions”，即一个候选框生成多个预设。

3.1 Set NMS

NMS：有四个候选框，IoU交并比较高，即相对重叠度较高，就要通过NMS将多余的候选框筛掉。如图，我们一般会设置一个预值为0.5，当IoU小于0.5，候选框被保留，当IoU大于0.5，将会经过NMS处理，只保留数值大的，所以最后得到A和D。

Set NMS又是如何处理的呢？依然是四个候选框，其他值不变，得知A和C来源于同一个proposal，那就不做NMS，最后得到A、C、D。

3.2 EMD Loss

定位是一个回归问题，对于一张图片，真值在这里，候选框需要向真值回归，离它越近越好差距也会越小，它需要算出来，反向再传回去。

如果有一个proposal有两个候选框，候选框如何向各自的真值回归，这就需要每个候选框与每个真值进行match计算其loss，得到的数值进行比较，将最小值传回去。

3.3 Refinement Module

虽然是为了解决高度重叠的问题，但其实也有部分稀疏的场景，所以部分场景需要用到Refinement Module来重新计算出EMD Loss。

四、与其他方法对比

4.1 整体对比

CrowdDetection运用了这些创新点，最终效果如何呢？通过一组实验数据结果可以看出，CrowdDetection的AP和JI最高，MR最低，全面超越其他方法。

从可视化结果来看，这个效果也是很明显的，第一行图片很多重叠的虚线都是漏检的，而下方运用CrowdDetection的都能被检出。

4.2 Set NMS对比

通过下方实验数据可以看出，运用了Set NMS的稀疏场景和密集场景都有所提高。

AP和JI上升明显，MR下降明显，如果运用了RM效果也稍有提高

4.3 Refinement Module对比

基础检测上加上MIP、Set NMS、RM以后，AP、MR、JI的效果变化，如下：

4.4 关于K值的设定

预设一个k值，即一个proposal回归几个框，由图可知，预设k值为2时，一个proposal回归2个框，效果最好。

本文整理自【内容共创系列】华为云签约作者征集令，认证签约作者赢取专属权益！

活动链接：https://bbs.huaweicloud.com/blogs/281988

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【云驻共创】CrowdDetection，解决拥挤场景下的目标检测难题