《Spark机器学习进阶实战》——3.3 分类效果评估
【摘要】 本书摘自《Spark机器学习进阶实战》——书中的第3章,第3.3.1节,作者是马海平、于俊、吕昕、向海。
3.3 分类效果评估
对分类模型的泛化性能进行评估,不仅需要有效可行的实验估计方法,还需要合理的衡量模型泛化能力的评价标准。在对比不同模型的性能时,不同的评价标准往往会导致不同的评判结果,因此评价分类算法的优劣时需要根据不同场景选择合适的评价度量来分析模型的性能。MLlib也提供了一套衡量机器学习模型性能的评价度量。
根据真实类别和分类器预测类别的不同组合可以将样本分成下面4种情形。
真正(True Positive,TP),被分类器正确分类的正类样本数。
假负(False Negative,FN),被分类器错误分类的正类样本数。
假正(False Positive,FP),被分类器错误分类的负类样本数。
真负(True Negative,TN),被分类器正确分类的负类样本数。
对应的混淆矩阵(Confusion Matrix)如表3-1所示。
表3-1 混淆矩阵
3.3.1 正确率
正确率(Accuracy)较为简单,表示测试集中正确分类的样本占样本总数的比例:
ACC = (TP + TN) / (TP + FP + TN + FN)
该评价指标在类平衡的数据集上可以使用,但如果在不平衡的数据集上使用则有一定误导作用。而在真实应用中,不平衡数据集是非常普遍的。比如信用卡欺诈检测中,假设有1%的交易属于欺诈行为,那么即使将所有交易均预测为正常交易也能得到99%的正确率。因此正确率不适合分析不平衡数据集。
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)