主动学习和被动学习(监督学习)、半监督学习的关系

举报
bzp123 发表于 2022/08/11 20:28:27 2022/08/11
【摘要】 主动学习和被动学习(监督学习)、半监督学习的关系

主动学习的基本流程如下图所示,主动学习方法是一个迭代式的交互训练过程,主要由五个核心部分组成,包括

1.标注样本(unlabeled pool,记为U)
2.筛选策略(select queries,记为Q)
3.相关领域的标注(human annotator,记为S)
4.标注数据集(labeled training set,记为L):标注完成的数据集;
5.目标模型(machine learning model,记为G)

主动学习 V.S. 被动学习(被动学习就是我们常见的监督模型)

如下图(a),实线表示理想情况下模型性能随着标注样本数量的增多而无限地提升

但实际情况下往往是如下图(b)的实线所示,模型的性能不是随着标注数据量的增多而无限地提升。此外,每个模型都会有对应的瓶颈性能(peak performance,即所能达到的最优效果),研究者通过增加训练数据以及调参使之不断逼近瓶颈性能。主动学习核心解决的问题正是:如何使用尽可能少的标注数据达到模型的瓶颈性能,从而减少不必要的标注成本。如下图(b)的虚线所示,主动学习根据合适的策略筛选出最具有价值的样本进行优先标注并给模型训练,从而以更少的标注样本达到模型的最优效果。



主动学习 V.S. 监督学习:在机器学习领域中,利用未标注样本和标注样本进行机器学习的算法可归纳为三类:半监督学习、直推式学习和主动学习

监督学习和主动学习都是从未标记样例中挑选部分价值量高的样例进行标注,然后补充到已标记样例集中进行训练,提高模型的准确度。但二者的学习方式不同:半监督学习一般不需要人工参与,是通过具有一定分类精度的基准分类器实现对未标注样例的自动标注;而主动学习需要将挑选出的高价值样例进行人工准确标注

监督学习通过用计算机进行自动或半自动标注代替人工标注,虽然有效降低了标注代价,但其标注结果依赖于:用部分已标注样例训练出的基础分类器的精度,因此并不能保证标注结果完全正确。相比而言,主动学习挑选的样本是人工标注,尽可能少地引入错误标注。

值得一提的是,目前已有许多研究者尝试将主动学习和半监督学习进行结合,并取得了不错的效果

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。