CVPR2021零样本实例分割论文解读

举报
疾风之剑 发表于 2021/06/26 14:33:20 2021/06/26
【摘要】 CVPR2021零样本实例分割论文解读Zero-Shot Instance Segmentation摘要深度学习已经显著地改进了实例分割的精准率,使用丰富的标记数据。但是,在许多领域,如医疗和制造业,收集足够的数据是非常难的并且标记这些数据需要高专业技能。我们根据这个动机提出了一个新的任务名称叫做ZSI零样本实例分割。在ZSI训练阶段,模型用已知数据训练,在测试阶段,模型用来分割已知和未知的...

CVPR2021零样本实例分割论文解读

Zero-Shot Instance Segmentation

摘要

  深度学习已经显著地改进了实例分割的精准率,使用丰富的标记数据。但是,在许多领域,如医疗和制造业,收集足够的数据是非常难的并且标记这些数据需要高专业技能。我们根据这个动机提出了一个新的任务名称叫做ZSI零样本实例分割。在ZSI训练阶段,模型用已知数据训练,在测试阶段,模型用来分割已知和未知的数据。我们首先制定了ZSI任务并且提出了抓住这个挑战的方法,包含零样本检测器,语义面具头,背景感知RPN和动态背景策略。我们展出了一个新的零样本实例分割基准,基于MS-COCO数据集。这个基准中广泛的实证结果表面我们的方法不仅超过了零样本目标检测任务的最好结果,并且在ZSI上达到了有为的表现。我们的方法将成为一个固定的基准并且促进将来的研究,在零样本实例分割领域。代码在这ZSI



image-20210625165958451.jpg

如上图所示,刀是已知数据,叉是未知数据,使用包含刀但不包含叉的标记数据训练ZSI模型,模型即可检测叉,很不错。

业界现状

1.已有零样本分类,但是只能针对图中只包含某一未知类的图片,图像中包含多个未知类则不合适;

2.已有零样本目标检测和零样本语义分割,但是像素级的分割效果不够好。

面临挑战

1.如何分割未知实例:使用额外的语义预训练模型用于关联已知和未知类,使得未知类能被检测和分割;

2.如果降低背景和未知类的混淆:建立背景感知RPN和动态背景更新策略。


零样本学习

D23FF6EF-1240-442A-9360-3D213D92AD2A.png

整体网络如上图所示,可见网络是在基础的Mask RCNN网络上增加了背景感知RPN,背景词向量模型和动态背景更新策略。

image-20210626101434047.png

检测头细节如上图所示。

ROI输出视觉特征,视觉特征通过回归分支回归目标框,另一方面,视觉特征通过编码模块生成语义特征,语义特征和已知权重及未知权重相乘得到最后的类别权重。这里语义特征还通过解码器重建了一个视觉特征,重建视觉特征和原有的视觉特征之间求了一个L2 LOSS,也是因为有这个L2 LOSS,才能使得编码器能够更好地提取语义特征,所以解码器仅在训练期间使用,推理期间不求LOSS即不用。

image-20210626103651248.jpg

分割头细节如上图所示。整体结构和检测头的类似,仅仅是具体模块的维度有差异。其中Ws-Conv和Wu-Conv都是1*1卷积。

image-20210626105052326.png

背景感知RPN和动态背景更新策略如图所示。背景感知RPN就是原来的骨干网络输出的视觉特征经过了一个编码器变成了语义特征,再与词向量Vb相乘得到特征是否属于前景还是背景的概率,其中前景里包含了已知类和未知类。动态背景更新策略就是在训练过程中对预训练word2vec模型生成的Vb词向量启用了反向传播而已,使得背景特征能够适应性地更新,更好地区分背景类和未知类。


image-20210626110930715.png

image-20210626111040054.png

loss函数如上所示。

总的loss包含3部分,一阶段的回归与分类,二阶段的检测头回归与分类,二阶段的分割头像素分类。

其中的LR就是用于检测头和分割头中回归重建视觉特征的loss。

实验结果

实验基于COCO2014数据集,分为两组,一组48已知和17未知,另一组65已知和15未知。训练时候,仅采用已知类,剔除训练数据中包含未知类的图片,测试的时候采用所有测试数据。模型达到SOTA水平。

image-20210626112039435.png

屏幕截图 2021-06-26 143038.png

屏幕截图 2021-06-26 142749.png

屏幕截图 2021-06-26 142759.png

屏幕截图 2021-06-26 143134.png


局限性分析

image-20210626112925618.png


如上图所示,方法强依赖于词向量模型。如果采用随机初始化,则效果会很差。因此该方法能够零样本检测未知类的前提是已有一个预训练词向量模型建立了已知类和未知类之间的关系。对于通用领域,可以采用一个大词向量模型,但是对于医疗和工业领域,仍然无法找到一个比较好的预训练词向量模型。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。