KNN算法
【摘要】 KNN的工作原理
“近朱者赤,近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步:
一、计算待分类物体与其他物体之间的距离;
二、统计距离最近的 K 个邻居;
三、对于 K 个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类。
12345
K值的选择:
关于KNN为什么K值变大会造成欠拟合,K值过小会造成过拟合: 首先明确题目,K值是过大,...
KNN的工作原理
“近朱者赤,近墨者黑”可以说是 KNN 的工作原理。整个计算过程分为三步:
一、计算待分类物体与其他物体之间的距离;
二、统计距离最近的 K 个邻居;
三、对于 K 个最近的邻居,它们属于哪个分类最多,待分类物体就属于哪一类。
- 1
- 2
- 3
- 4
- 5
K值的选择:
关于KNN为什么K值变大会造成欠拟合,K值过小会造成过拟合:
首先明确题目,K值是过大,或者过小的,第二KNN的思想是用目标点邻点的类别投票判断目标点的类别。 如果K过大,即和它距离较远的不同类别的点就变成了邻点,偏差变大,准确率就低了。如果K过小,比如就选最近的一个点,容易被噪声和错误的样本干扰,就容易过拟合。
如果 K 值比较小,就相当于未分类物体与它的邻居非常接近才行。这样产生的一个问题就是,如果邻居点是个噪声点,那么未分类物体的分类也会产生误差,这样 KNN 分类就会产生过拟合。
如果 K 值比较大,相当于距离过远的点也会对未知物体的分类产生影响,虽然这种情况的好处是鲁棒性强,但是不足也很明显,会产生欠拟合情况,也就是没有把未分类物体真正分类出来。
所以 K 值是个实践出来的结果,并不是我们事先而定的。在工程上, 我们一般采用交叉验证的方式选取 K 值。
交叉验证的思路就是,把样本集中的大部分样本作为训练集,剩余的小部分样本用于预测,来验证分类模型的准确性。 所以在 KN
文章来源: maoli.blog.csdn.net,作者:刘润森!,版权归原作者所有,如需转载,请联系作者。
原文链接:maoli.blog.csdn.net/article/details/91369269
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)