《机器学习:算法视角(原书第2版)》 —2.2.6 不平衡数据集

举报
华章计算机 发表于 2019/12/21 13:10:39 2019/12/21
【摘要】 本节书摘来自华章计算机《机器学习:算法视角(原书第2版)》 一书中第2章,第2.2.6节,作者是[新西兰] 史蒂芬·马斯兰(Stephen Marsland),高 阳 商 琳 等译。

2.2.6 不平衡数据集

请注意,对于精度,我们隐含地假设数据集中存在相同数量的正、负示例(称为平衡数据集)。然而,这通常是不正确的(这可能会给学习器带来问题,我们将在本书后面介绍)。在不是这样的情况下,我们可以将平衡精度计算为敏感率和特异率之和除以2。但是,更正确的度量是Matthew相关系数(Matthew’s Correlation Coefficient),计算公式如下:

image.png (2.9)

如果分母中的任何括号为0,则整个分母设置为1。这提供了平衡的精度计算。

作为这些评估方法的最后一点,如果有两个以上的类并且区分不同类型的误差是有用的,那么计算会变得更复杂,因为不是一组假正例和一组假反例,而是每个类都有一些。在这种情况下,特异率和查全率是不一样的。但是,可以创建一组结果,其中使用一个类作为正例,其他剩余的作为反例,并对每个不同的类重复此操作。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。