主动学习和被动学习(监督学习)、半监督学习的关系
主动学习的基本流程如下图所示,主动学习方法是一个迭代式的交互训练过程,主要由五个核心部分组成,包括:
主动学习 V.S. 被动学习(被动学习就是我们常见的监督模型):
如下图(a)所示,实线表示理想情况下模型性能随着标注样本数量的增多而无限地提升。
但实际情况下往往是如下图(b)的实线所示,模型的性能不是随着标注数据量的增多而无限地提升。此外,每个模型都会有对应的瓶颈性能(peak performance,即所能达到的最优效果),研究者通过增加训练数据以及调参使之不断逼近瓶颈性能。主动学习核心解决的问题正是:如何使用尽可能少的标注数据达到模型的瓶颈性能,从而减少不必要的标注成本。如下图(b)的虚线所示,主动学习根据合适的策略筛选出最具有价值的样本进行优先标注并给模型训练,从而以更少的标注样本达到模型的最优效果。
主动学习 V.S. 半监督学习:在机器学习领域中,利用未标注样本和标注样本进行机器学习的算法可归纳为三类:半监督学习、直推式学习和主动学习 。
半监督学习和主动学习都是从未标记样例中挑选部分价值量高的样例进行标注,然后补充到已标记样例集中进行训练,提高模型的准确度。但二者的学习方式不同:半监督学习一般不需要人工参与,是通过具有一定分类精度的基准分类器实现对未标注样例的自动标注;而主动学习需要将挑选出的高价值样例进行人工准确标注。
半监督学习通过用计算机进行自动或半自动标注代替人工标注,虽然有效降低了标注代价,但其标注结果依赖于:用部分已标注样例训练出的基础分类器的精度,因此并不能保证标注结果完全正确。相比而言,主动学习挑选的样本是人工标注,尽可能少地引入错误标注。
值得一提的是,目前已有许多研究者尝试将主动学习和半监督学习进行结合,并取得了不错的效果。
- 点赞
- 收藏
- 关注作者
评论(0)