CVPR2021零样本实例分割论文解读
CVPR2021零样本实例分割论文解读
Zero-Shot Instance Segmentation
摘要
深度学习已经显著地改进了实例分割的精准率,使用丰富的标记数据。但是,在许多领域,如医疗和制造业,收集足够的数据是非常难的并且标记这些数据需要高专业技能。我们根据这个动机提出了一个新的任务名称叫做ZSI零样本实例分割。在ZSI训练阶段,模型用已知数据训练,在测试阶段,模型用来分割已知和未知的数据。我们首先制定了ZSI任务并且提出了抓住这个挑战的方法,包含零样本检测器,语义面具头,背景感知RPN和动态背景策略。我们展出了一个新的零样本实例分割基准,基于MS-COCO数据集。这个基准中广泛的实证结果表面我们的方法不仅超过了零样本目标检测任务的最好结果,并且在ZSI上达到了有为的表现。我们的方法将成为一个固定的基准并且促进将来的研究,在零样本实例分割领域。代码在这ZSI。
如上图所示,刀是已知数据,叉是未知数据,使用包含刀但不包含叉的标记数据训练ZSI模型,模型即可检测叉,很不错。
业界现状
1.已有零样本分类,但是只能针对图中只包含某一未知类的图片,图像中包含多个未知类则不合适;
2.已有零样本目标检测和零样本语义分割,但是像素级的分割效果不够好。
面临挑战
1.如何分割未知实例:使用额外的语义预训练模型用于关联已知和未知类,使得未知类能被检测和分割;
2.如果降低背景和未知类的混淆:建立背景感知RPN和动态背景更新策略。
零样本学习
整体网络如上图所示,可见网络是在基础的Mask RCNN网络上增加了背景感知RPN,背景词向量模型和动态背景更新策略。
检测头细节如上图所示。
ROI输出视觉特征,视觉特征通过回归分支回归目标框,另一方面,视觉特征通过编码模块生成语义特征,语义特征和已知权重及未知权重相乘得到最后的类别权重。这里语义特征还通过解码器重建了一个视觉特征,重建视觉特征和原有的视觉特征之间求了一个L2 LOSS,也是因为有这个L2 LOSS,才能使得编码器能够更好地提取语义特征,所以解码器仅在训练期间使用,推理期间不求LOSS即不用。
分割头细节如上图所示。整体结构和检测头的类似,仅仅是具体模块的维度有差异。其中Ws-Conv和Wu-Conv都是1*1卷积。
背景感知RPN和动态背景更新策略如图所示。背景感知RPN就是原来的骨干网络输出的视觉特征经过了一个编码器变成了语义特征,再与词向量Vb相乘得到特征是否属于前景还是背景的概率,其中前景里包含了已知类和未知类。动态背景更新策略就是在训练过程中对预训练word2vec模型生成的Vb词向量启用了反向传播而已,使得背景特征能够适应性地更新,更好地区分背景类和未知类。
loss函数如上所示。
总的loss包含3部分,一阶段的回归与分类,二阶段的检测头回归与分类,二阶段的分割头像素分类。
其中的LR就是用于检测头和分割头中回归重建视觉特征的loss。
实验结果
实验基于COCO2014数据集,分为两组,一组48已知和17未知,另一组65已知和15未知。训练时候,仅采用已知类,剔除训练数据中包含未知类的图片,测试的时候采用所有测试数据。模型达到SOTA水平。
局限性分析
如上图所示,方法强依赖于词向量模型。如果采用随机初始化,则效果会很差。因此该方法能够零样本检测未知类的前提是已有一个预训练词向量模型建立了已知类和未知类之间的关系。对于通用领域,可以采用一个大词向量模型,但是对于医疗和工业领域,仍然无法找到一个比较好的预训练词向量模型。
- 点赞
- 收藏
- 关注作者
评论(0)