- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《机器学习：算法视角（原书第2版）》 —2.2.4　精度指标

华章计算机发表于 2019/12/21 13:07:03 2019/12/21

【摘要】本节书摘来自华章计算机《机器学习：算法视角（原书第2版）》一书中第2章，第2.2.4节，作者是[新西兰]　史蒂芬·马斯兰（Stephen Marsland），高　阳　商　琳　等译。

2.2.4　精度指标

我们可以用更多的标准来分析结果，而不仅仅是测量精度。如果考虑类的可能输出，那么它们可以被安排在这样的简单图表中（其中，真正例（true positive）是被正确放入类1，假正例（false positive）是被错误放入类1，而反例（包括真和假）是被放入类2）：

此图表中主对角线上的条目是正确的，而主对角线之外的条目是错误的，就和混淆矩阵一样。但是，请注意，此图表和假正例等概念都是基于二分类的。

精度定义为真正例和真反例的数量除以示例总数（其中#表示“数量”)：

(2.2)

精度的问题在于它没有告诉我们关于结果的所有信息，因为它将四个数字变成一个数字。有两对互补的度量可以帮助我们理解分类器的性能，即敏感率（sensitivity）和特异率（specificity），以及查准率（precision）和查全率（recall）。

敏感率（也称为真正例率（true positive rate））是正确的正例数量与被分类为正例的数量的比率，而特异率是对于反例而言相同的比率。查准率是正确的正例与实际正例的数量之比，而查全率是正确的正例的数量与被归类为正例的数量的比率，与敏感率相同。如果再次查看图表，你可以看到敏感率和特异率对分母的列进行求和，而查准率和查全率则对第一列和第一行求和，因此错过了一些关于学习器对反例做得如何的信息。

总之，这些度量中的任何一对都提供了比精度更多的信息。如果考虑查准率和查全率，那么你可以看到它们在某种程度上是反向相关的，因为如果假正例数量增加（意味着算法使用的是该类的更广泛的定义），那么假反例的数量经常会减少，反之亦然。它们可以结合起来给出一个单一的度量——F1度量，表示为：

并且就假正例的数量而言（从中可以看出，它计算了反例的平均值）：

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

《机器学习：算法视角（原书第2版）》 —2.2.4　精度指标

2.2.4　精度指标

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

《机器学习：算法视角（原书第2版）》 —2.2.4 精度指标

2.2.4 精度指标

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品

《机器学习：算法视角（原书第2版）》 —2.2.4　精度指标

2.2.4　精度指标