《机器学习:算法视角(原书第2版)》 —2.2.5 受试者工作特征曲线
2.2.5 受试者工作特征曲线
图2-8 ROC曲线的一个例子。对角线代表随机猜测,所以线上方的任何东西都比随机性好,离线越远越好。在所示的两条曲线中,远离对角线的曲线将代表更精确的方法由于我们可以使用这些度量来评估特定的分类器,因此还可以比较分类器——具有不同学习参数的相同分类器或完全不同的分类器。在这种情况下,受试者工作特征(Receiver Operator Characteristic)曲线(几乎总是称为ROC曲线)是有用的。ROC曲线的y轴是真正例率,x轴是假正例率,如图2-8所示。单次运行的分类器在ROC图上产生单个点,而完美的分类器将是(0,1)处的点(100%真正例,0%假正例),而反分类器(anti-classifier)获得的错误将在(1,0)处,因此,分类器的结果越靠近左上角,分类器性能越好。位于从(0,0)到(1,1)的对角线上的任何分类器都恰好处于随机猜测级别(假设正负类个数一样),则可能会浪费大量学习时间,因为公平的硬币也会做得很好。
为了比较分类器或同一分类器的参数设置选择,你可以计算离对角线“随机猜测”线最远的点。但是,计算曲线下面积(Area Under the Curve,AUC)是正常的。如果每个分类器只有一个点,则曲线是从(0,0)一直到该点,然后从那里到(1,1)的梯形。如果有更多的点(基于分类器的更多运行,例如在不同数据集上训练和测试),则它们是沿对角线顺序包括在内的部分。
获得曲线而不是ROC曲线上的点的关键是使用交叉验证。如果使用10折交叉验证,那么就有10个分类器,10个不同的测试集,还有“真值”标记。真实标记可用于生成不同交叉验证训练结果的排序列表,还可用于指定ROC曲线上与该分类器结果相对应的10个数据点的曲线。通过为每个分类器生成ROC曲线,可以比较它们的结果。
- 点赞
- 收藏
- 关注作者
评论(0)