[Object Detection] Precise Detection in Densely Packed Scenes
Challenges
密集场景先有的detector预测结果往往存在不准确性,使得其存在incorrect和overlap。例如下图所示。
Contributions
为了提高检测的质量,authors提出了一个branch去预测预测出来的box的质量(与其最近的IoU值),称之为Soft-IoU
作者提出使用基于clustering的EM-Merger Unit去合并冗余的bbox,而不是NMS。因为基于NMS的阈值不易确定。
Method
Framework: 如下图所示
backbone: 作者使用RetinaNet作为baseline detector。
作者引入了一个Soft-Iou Layer去评估每个前景bbox的质量
cde分别表示高斯热力图和可视化的检测框以及去重后的结果
Soft-Iou Layer
Authors多使用一个Head去预测每个前景的BBox和其对应最近的GTBBOX的IoU值。如果没有Overlap,则其值为0.
这里的soft代表的是使用soft binary cross entropy 作为损失函数优化该head。定义如下所示
Soft-Iou 和 Objectness有何不同?
Objectness 当我们的bbox只包含一个物体的部分,或者包括多个物体的其score均可能较高。
但是上述情况下,soft-iou的值并不会很高,所以其值可以在一定情况下反应框的质量
EM-Merger
定位:取代NMS,完成对detector输出结果去重的功能。
问题定义:给定N个box,从其中找到K个box,作为filter后的结果。其中 K << N
其中alpha代表的是IoU-score的占比,定义如下所示
我们优化的目标如下所示,其中KL代表计算fi和gj之间的KL散度,用于估计两个分布的相似程度
EM
E-Step: 将N个分别分配到距离他最近的某个高斯分布中,数学定义如下所示
M-Step: 分别更新K个高斯分布的参数,如下所示
怎么确定K?
- 作者根据数据集先验生成了一个K:
- 此K是决定了上限,当不同cluster之间重叠还大于阈值的时候,保留置信度高的一个。
Result
加入Soft-Iou可以弱小提升指标。
EM可以较大幅度提升指标。
- 点赞
- 收藏
- 关注作者
评论(0)