自监督学习进展
深度学习的两大部分
知识表示:一个包含参数的可微分计算图
学习范式:
监督学习:标注数据产生监督信息,需要大量标注数据
强化学习:环境产生监督信息,需要一个模拟真实的环境和大量试错
自监督学习:利用先验知识构造代理任务,产生监督信息
自监督学习意义:沉淀知识先于任务,通过大量无标注数据学习一个表征,用于下游任务
三种代理任务:
基于重构的任务
基于对比的任务
基于几何先验的任务
基于重构的任务
Jigsaw Puzzle
Noroozi Mehdi and Paolo Favaro. Unsupervised learning of visual representations by solving jigsaw puzzles. ECCV 2016.
切片打乱后预测相对位置
Colorization
Zhang Richard, Phillip Isola and Alexei A. Efros. Colorful image colorization. ECCV 2016.
通过黑白预测彩色图像
Rotation
Gidaris Spyros, Praveer Singh and Nikos Komodakis. Unsupervised representation learning by predicting image rotations. ICLR 2018.
将任意图片旋转0,90,180,270度,网络预测旋转了多少角度
其他任务
AutoEncoder
GAN
Super Resolution
Image Inpainting
问题
在自然语言上很有效,在视觉上不太有效
视觉表示是连续的而非离散的,预测有太多种可能性
过分关注像素级信息,可能会妨碍提取高层语义信息
可能存在捷径
基于对比的任务
通过构建正样本(positive)和负样本(negative),优化使得样本和正样本之间的距离远远大于样本和负样本之间的距离。
思想在度量学习、图像检索、人脸识别、目标跟踪等领域也有应用。
MoCO
He Kaiming et al. Momentum contrast for unsupervised visual representation learning. CVPR 2020.
问题:
将contrastive learning抽象为字典学习,之前的方法无法保证特征字典large和consistant
large:有一个字典包含足够多的负样本才能够学习到有用的特征
consistent:样本字典不能变化太快,要有一致性
方法:
Dictionary as a queue
Encoder momentum update
结果
ImageNet上finetune分类层
MoCo在Instagram 1 Billion 数据上预训练后在下游7个任务超过Imagenet有监督模型。
SimCLR
Ting Chen et al. A Simple Framework for Contrastive Learning of Visual Representations. arXiv 2020.
贡献
组合使用多个数据增强方法对于对比学习算法非常重要。同时,数据增强对无监督学习的提升效果远大于监督学习
在对比损失和特征表示之间插入一个可学习的非线性变换模块,可以防止信息丢失,大幅度提升学习到的特征的质量
与监督学习相比,无监督对比学习可以得益于更大的batchsize以及训练步数
结果
基于几何先验
Zhou Tinghui et al. Unsupervised learning of depth and ego-motion from video. CVPR 2017.
Kocabas Muhammed, Salih Karagoz and Emre Akbas. Self-supervised learning of 3d human pose using multi-view geometry. CVPR 2019.
应用与研究方向
代理任务的改进
如何构造、选择对这个任务足够难的正、负样本
如何避免网络使用捷径
如何避免在代理任务上表现好,在下游任务上表现差
针对新的数据类型和先验知识设计代理任务
视频
视频预测
视频帧排序
相邻帧相似,较远帧不相似
多模态,画面和声音
多视角下同一帧相似
双目、RGBD、点云数据等等
自监督与下游任务结合
几何监督
半监督+自监督
强化学习+自监督
- 点赞
- 收藏
- 关注作者
评论(0)