《百面机器学习》第八问:精确率与召回率的权衡,P-R曲线

举报
王博Kings 发表于 2020/12/29 23:17:10 2020/12/29
【摘要】  目录 1. 实际案例: 2. 回顾基本知识: 精确率Precision 召回率Recall 排序问题中,如何衡量模型性能? 精确率和召回率是既矛盾又统一的两个指标 3. 解答实例问题 如何解决或者权衡? P-R曲线 F1 score  是精确率和召回率的调和平均值 1. 实际案例: 搜索引擎提供模糊搜索功能,搜索排序模型返回的TOP 5 精确率非常...

 目录

1. 实际案例:

2. 回顾基本知识:

精确率Precision

召回率Recall

排序问题中,如何衡量模型性能?

精确率和召回率是既矛盾又统一的两个指标

3. 解答实例问题

如何解决或者权衡?

P-R曲线

F1 score  是精确率和召回率的调和平均值


1. 实际案例:

搜索引擎提供模糊搜索功能,搜索排序模型返回的TOP 5 精确率非常高,实际使用中,用户找不到自己想要的,尤其是一些小众冷门的搜索,请问问题出在哪里?

2. 回顾基本知识:

精确率Precision

分类正确的正样本个数占分类器判定为正样本的样本个数比例。

召回率Recall

分类正确的正样本占真正的正样本个数的比例

排序问题中,如何衡量模型性能?

排序问题中,通常没有一个确定的阈值把得到的结果直接判定为正样本或者负样本,而是采用Top  N返回结果的精确率和召回率来衡量排序模型的性能,即认为模型返回的Top N 就是判定的正样本,然后计算前N个位置的准确率、精确率和召回率。

精确率和召回率是既矛盾又统一的两个指标

为了提高精确率,分类器需要尽量在“更有把握”时才把样本预测为正样本,但是这样保守,会导致召回率低,因为这会由于保守而漏掉很多没有把握的正样本。

3. 解答实例问题

Top  5返回值质量很高,这里指的就是精确率,假如用户搜索的是冷门的东西,往往排的很后,甚至倒过来搜索,这里就出现了召回率的问题,虽然排在前面的结果特别好,但是如果有100个相关,但是只返回5个,精确率100%,但是召回率只有5%,所以出现了结果。

如何解决或者权衡?

综合评估一个模型的好坏,不仅要看模型在不同Top N下的精确率和召回率,最好是要绘制出模型的P-R曲线。

P-R曲线

F1 score  是精确率和召回率的调和平均值

F1 = ( 2 * P * R ) / ( P + R)

文章来源: kings.blog.csdn.net,作者:人工智能博士,版权归原作者所有,如需转载,请联系作者。

原文链接:kings.blog.csdn.net/article/details/97791756

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。