KNN算法

举报
毛利 发表于 2021/07/15 07:48:05 2021/07/15
【摘要】 KNN的工作原理 “近朱者赤,近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步: 一、计算待分类物体与其他物体之间的距离; 二、统计距离最近的 K 个邻居; 三、对于 K 个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类。 12345 K值的选择: 关于KNN为什么K值变大会造成欠拟合,K值过小会造成过拟合: 首先明确题目,K值是过大,...

KNN的工作原理

“近朱者赤,近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步:

一、计算待分类物体与其他物体之间的距离;

二、统计距离最近的 K 个邻居;

三、对于 K 个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类。

  
 
  • 1
  • 2
  • 3
  • 4
  • 5

K值的选择:

关于KNN为什么K值变大会造成欠拟合,K值过小会造成过拟合:
首先明确题目,K值是过大,或者过小的,第二KNN的思想是用目标点邻点的类别投票判断目标点的类别。 如果K过大,即和它距离较远的不同类别的点就变成了邻点,偏差变大,准确率就低了。如果K过小,比如就选最近的一个点,容易被噪声和错误的样本干扰,就容易过拟合。

如果 K 值比较小,就相当于未分类物体与它的邻居非常接近才行。这样产生的一个问题就是,如果邻居点是个噪声点,那么未分类物体的分类也会产生误差,这样 KNN 分类就会产生过拟合。

如果 K 值比较大,相当于距离过远的点也会对未知物体的分类产生影响,虽然这种情况的好处是鲁棒性强,但是不足也很明显,会产生欠拟合情况,也就是没有把未分类物体真正分类出来。

所以 K 值是个实践出来的结果,并不是我们事先而定的。在工程上, 我们一般采用交叉验证的方式选取 K 值。

交叉验证的思路就是,把样本集中的大部分样本作为训练集,剩余的小部分样本用于预测,来验证分类模型的准确性。 所以在 KN

文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。

原文链接:maoli.blog.csdn.net/article/details/91369269

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。