- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《机器学习：算法视角（原书第2版）》 —2.2.6　不平衡数据集

华章计算机发表于 2019/12/21 13:10:39 2019/12/21

【摘要】本节书摘来自华章计算机《机器学习：算法视角（原书第2版）》一书中第2章，第2.2.6节，作者是[新西兰]　史蒂芬·马斯兰（Stephen Marsland），高　阳　商　琳　等译。

2.2.6　不平衡数据集

请注意，对于精度，我们隐含地假设数据集中存在相同数量的正、负示例（称为平衡数据集）。然而，这通常是不正确的（这可能会给学习器带来问题，我们将在本书后面介绍）。在不是这样的情况下，我们可以将平衡精度计算为敏感率和特异率之和除以2。但是，更正确的度量是Matthew相关系数（Matthew’s Correlation Coefficient），计算公式如下：

　(2.9)

如果分母中的任何括号为0，则整个分母设置为1。这提供了平衡的精度计算。

作为这些评估方法的最后一点，如果有两个以上的类并且区分不同类型的误差是有用的，那么计算会变得更复杂，因为不是一组假正例和一组假反例，而是每个类都有一些。在这种情况下，特异率和查全率是不一样的。但是，可以创建一组结果，其中使用一个类作为正例，其他剩余的作为反例，并对每个不同的类重复此操作。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《机器学习：算法视角（原书第2版）》 —2.2.6　不平衡数据集

2.2.6　不平衡数据集

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《机器学习：算法视角（原书第2版）》 —2.2.6 不平衡数据集

2.2.6 不平衡数据集

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《机器学习：算法视角（原书第2版）》 —2.2.6　不平衡数据集

2.2.6　不平衡数据集