机器学习(二十一):类不平衡处理之权重法

举报
川川菜鸟 发表于 2022/08/19 23:37:48 2022/08/19
【摘要】 个人笔记,不用购买。 本文介绍了类不平衡的概念,以及四种解决方法。同时本文仅对第一个方法:类权重,进行案例实现。 一、什么是类不平衡? 类不平衡是指机器学习中的一个问题,其中数据中的类表示...

个人笔记,不用购买。

本文介绍了类不平衡的概念,以及四种解决方法。同时本文仅对第一个方法:类权重,进行案例实现。

一、什么是类不平衡?

类不平衡是指机器学习中的一个问题,其中数据中的类表示不均等。例如,如果有 100 个数据点,其中 90 个属于 A 类,10 个属于 B 类,那么这些类是不平衡的。类不平衡可能导致训练机器学习模型出现问题,因为模型可能偏向于更常见的类。如果一个类别的示例比另一个类别多,则该模型将更有可能学习和预测多数类别。这可能是一个问题,因为当模型应用于更均匀平衡的数据时,它可能导致结果不准确。在解决与医疗保健领域、银行(欺诈)相关的分类问题时,它已被发现是最常见的问题之一) 领域等。例如,如果您想构建一个模型,将交易分类为欺诈或其他类型,则数据集将高度不平衡,因为不会有很多与欺诈相关的交易被发现的实例。与构建具有高性能的模型相关的挑战是解决高度偏斜的数据类分布,这被称为不平衡分类问题。当数据集中的类具有高度不相等的样本数时,就会出现分类不平衡问题 。类不平衡是机器学习中的一个常见问题,并且很难克服。

二、常用解决方法

方法一:使用类权重
使用类权重是解决机器学习模型中类不平衡的常用方法。当类之间的观察数量存在差异时,就会发生类不平衡,这通常会导致一个类相对于另一个类被过度代表。类权重调整模型的成本函数,使得对少数类的观察错误分类比对多数类的观察错误分类更严重。这种方法可以通过重新平衡类分布来帮助提高模型的准确性。但是,需要注意的是,类权重不会创建新的数据点,也不能

文章来源: chuanchuan.blog.csdn.net,作者:川川菜鸟,版权归原作者所有,如需转载,请联系作者。

原文链接:chuanchuan.blog.csdn.net/article/details/126409456

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。