最新半监督学习总结
1 半监督学习简单介绍
在很多场景,标注成本高且需要专业人士,不易获取,如医学图像的分割标注,而无标签数据获取容易很多。
半监督学习的目标,就是挖掘无标签数据的价值。
半监督学习主要分为两类,纯半监督学习与直推学习。
2 应用
据报道,在工业界,支付宝的风控与微信中扫一扫的识物,已利用半监督学习节省人力,并提升识别效果。
在学术界,热度统计如下
3 具体方式
利用无标签的方式主要有三种利用无监督的图像重建、伪标签、一致性训练。
(1)由于图像重建没有考虑有标签样本与无标签样本的互动,对两类样本的利用相对独立,当前这类方法在半监督学习研究中较少使用。
(2)伪标签生成,利用有标签样本推导未标注样本的标签,再利用这些标签训练模型。为克服单模型不易发现其推导不准确的缺陷,往往引入多模型联合训练,交叉引导。
(3)一致性训练,利用无标签样本及其变形的类别一致性构建损失函数,有硬标签(one-hot vector)与软标签(类别的概率分布)两种方式。
·
4 重要论文
最新Google Brain的两篇论文,引发大家关注,其首席科学家Vincent对半监督学习给予很高的评价与期望。
对具体内容感兴趣的,可以看看原文。
[1]Unsupervised Data Augmentation (UDA) for Consistency Training, arXiv:1904.12848v5.
[2]Self-training with Noisy Student improves ImageNet classification, CVPR, 2020.
- 点赞
- 收藏
- 关注作者
评论(0)