《机器学习:算法视角(原书第2版)》 —2.2.6 不平衡数据集
【摘要】 本节书摘来自华章计算机《机器学习:算法视角(原书第2版)》 一书中第2章,第2.2.6节,作者是[新西兰] 史蒂芬·马斯兰(Stephen Marsland),高 阳 商 琳 等译。
2.2.6 不平衡数据集
请注意,对于精度,我们隐含地假设数据集中存在相同数量的正、负示例(称为平衡数据集)。然而,这通常是不正确的(这可能会给学习器带来问题,我们将在本书后面介绍)。在不是这样的情况下,我们可以将平衡精度计算为敏感率和特异率之和除以2。但是,更正确的度量是Matthew相关系数(Matthew’s Correlation Coefficient),计算公式如下:
(2.9)
如果分母中的任何括号为0,则整个分母设置为1。这提供了平衡的精度计算。
作为这些评估方法的最后一点,如果有两个以上的类并且区分不同类型的误差是有用的,那么计算会变得更复杂,因为不是一组假正例和一组假反例,而是每个类都有一些。在这种情况下,特异率和查全率是不一样的。但是,可以创建一组结果,其中使用一个类作为正例,其他剩余的作为反例,并对每个不同的类重复此操作。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)