[Object Detection] Precise Detection in Densely Packed Scenes

举报
卖猪肉的阿漆 发表于 2020/07/06 18:40:45 2020/07/06
【摘要】 Challenges密集场景先有的detector预测结果往往存在不准确性,使得其存在incorrect和overlap。例如下图所示。Contributions为了提高检测的质量,authors提出了一个branch去预测预测出来的box的质量(与其最近的IoU值),称之为Soft-IoU作者提出使用基于clustering的EM-Merger Unit去合并冗余的bbox,而不是NMS。...

Challenges


  • 密集场景先有的detector预测结果往往存在不准确性,使得其存在incorrect和overlap。例如下图所示。


Contributions


  • 为了提高检测的质量,authors提出了一个branch去预测预测出来的box的质量(与其最近的IoU值),称之为Soft-IoU

  • 作者提出使用基于clustering的EM-Merger Unit去合并冗余的bbox,而不是NMS。因为基于NMS的阈值不易确定。


Method

  • Framework: 如下图所示

    • backbone: 作者使用RetinaNet作为baseline detector。

    • 作者引入了一个Soft-Iou Layer去评估每个前景bbox的质量

    • cde分别表示高斯热力图和可视化的检测框以及去重后的结果

  • Soft-Iou Layer


    • Authors多使用一个Head去预测每个前景的BBox和其对应最近的GTBBOX的IoU值。如果没有Overlap,则其值为0.

    • 这里的soft代表的是使用soft binary cross entropy 作为损失函数优化该head。定义如下所示

    • Soft-Iou 和 Objectness有何不同?

      • Objectness 当我们的bbox只包含一个物体的部分,或者包括多个物体的其score均可能较高。

      • 但是上述情况下,soft-iou的值并不会很高,所以其值可以在一定情况下反应框的质量

  • EM-Merger

    • 定位:取代NMS,完成对detector输出结果去重的功能。

    • 问题定义:给定N个box,从其中找到K个box,作为filter后的结果。其中 K << N

    • 其中alpha代表的是IoU-score的占比,定义如下所示

    • 我们优化的目标如下所示,其中KL代表计算fi和gj之间的KL散度,用于估计两个分布的相似程度


    • EM

      • E-Step: 将N个分别分配到距离他最近的某个高斯分布中,数学定义如下所示


      • M-Step: 分别更新K个高斯分布的参数,如下所示


      怎么确定K?

              - 作者根据数据集先验生成了一个K:

              - 此K是决定了上限,当不同cluster之间重叠还大于阈值的时候,保留置信度高的一个。


Result

  • 加入Soft-Iou可以弱小提升指标。

  • EM可以较大幅度提升指标。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。