- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

机器学习之KNN算法实践

tea_year 发表于 2025/11/28 22:48:12 2025/11/28

【摘要】 KNN（K Near Neighbor）：k个最近的邻居，即每个样本都可以用它最接近的k个邻居来代表。KNN算法属于监督学习方式的分类算法，我的理解就是计算某给点到每个点的距离作为相似度的反馈。简单来讲，KNN就是“近朱者赤，近墨者黑”的一种分类算法。KNN是一种基于实例的学习，属于懒惰学习，即没有显式学习过程。要区分一下聚类（如Kmeans等），KNN是监督学习分类，而Kmeans是无监督...

KNN（K Near Neighbor）：k个最近的邻居，即每个样本都可以用它最接近的k个邻居来代表。KNN算法属于监督学习方式的分类算法，我的理解就是计算某给点到每个点的距离作为相似度的反馈。
简单来讲，KNN就是“近朱者赤，近墨者黑”的一种分类算法。
KNN是一种基于实例的学习，属于懒惰学习，即没有显式学习过程。
要区分一下聚类（如Kmeans等），KNN是监督学习分类，而Kmeans是无监督学习的聚类，聚类将无标签的数据分成不同的簇。

KNN算法介绍

KNN的全称是K Nearest Neighbors，意思是K个最近的邻居，从这个名字我们就能看出一些KNN算法的蛛丝马迹了。K个最近邻居，毫无疑问，K的取值肯定是至关重要的。那么最近的邻居又是怎么回事呢？其实啊，KNN的原理就是当预测一个新的值x的时候，根据它距离最近的K个点是什么类别来判断x属于哪个类别。听起来有点绕，还是看看图吧。

图中绿色的点就是我们要预测的那个点，假设K=3。那么KNN算法就会找到与它距离最近的三个点（这里用圆圈把它圈起来了），看看哪种类别多一些，比如这个例子中是蓝色三角形多一些，新来的绿色点就归类到蓝三角了。

但是，当K=5的时候，判定就变成不一样了。这次变成红圆多一些，所以新来的绿点被归类成红圆。从这个例子中，我们就能看得出K的取值是很重要的。

明白了大概原理后，我们就来说一说细节的东西吧，主要有两个，K值的选取和点距离的计算。

2.1距离计算

要度量空间中点距离的话，有好几种度量方式，比如常见的曼哈顿距离计算，欧式距离计算等等。不过通常KNN算法中使用的是欧式距离，这里只是简单说一下，拿二维平面为例，，二维空间两个点的欧式距离计算公式如下：

这个高中应该就有接触到的了，其实就是计算（x1,y1）和（x2,y2）的距离。拓展到多维空间，则公式变成这样：

这样我们就明白了如何计算距离，KNN算法最简单粗暴的就是将预测点与所有点距离进行计算，然后保存并排序，选出前面K个值看看哪些类别比较多。但其实也可以通过一些数据结构来辅助，比如最大堆，这里就不多做介绍，有兴趣可以百度最大堆相关数据结构的知识。

三.KNN特点

KNN是一种非参的，惰性的算法模型。什么是非参，什么是惰性呢？

非参的意思并不是说这个算法不需要参数，而是意味着这个模型不会对数据做出任何的假设，与之相对的是线性回归（我们总会假设线性回归是一条直线）。也就是说KNN建立的模型结构是根据数据来决定的，这也比较符合现实的情况，毕竟在现实中的情况往往与理论上的假设是不相符的。

惰性又是什么意思呢？想想看，同样是分类算法，逻辑回归需要先对数据进行大量训练（tranning），最后才会得到一个算法模型。而KNN算法却不需要，它没有明确的训练数据的过程，或者说这个过程很快。

KNN算法分类电影

import numpy

import pandas   #导入Excel文件

from sklearn.neighbors import KNeighborsClassifier   #机器学习算法库，没有深度学习算法

movie=pandas.read_excel(r"D:\Python\代码\Machine-Learn\1-KNN\data\movie.xlsx",sheet_name=0)

movie

	电影名称	武打镜头	接吻镜头	分类情况
0	大话西游	36	1	动作片
1	杀破狼	43	2	动作片
2	前任3	0	10	爱情片
3	战狼2	59	1	动作片
4	泰坦尼克号	1	15	爱情片
5	新余心愿	2	19	爱情片

movie=pandas.read_excel(r"D:\Python\代码\Machine-Learn\1-KNN\data\movie.xlsx",sheet_name=0)
x=movie[["武打镜头","接吻镜头"]]    #取出训练数据中的训练数据
y=movie["分类情况"]                 #取出目标值
knn=KNeighborsClassifier(n_neighbors=5)
knn.fit(x,y)       #训练数据
#预测电影《飞车》武打镜头50，接吻镜头2
x_text=pandas.DataFrame({"武打镜头":[50,3],"接吻镜头":[2,50]})
x_text

	武打镜头	接吻镜头
0	50	2
1	3	50

get_result=knn.predict(x_text)
get_proba=knn.predict_proba(x_text)
print("概率：{}".format(get_proba))
print("分类结果：{}".format(get_result))


概率：[[0.6 0.4]
 [0.4 0.6]]
分类结果：['动作片' '爱情片']

电影分类运行原理

s=((movie["武打镜头"]-50)**2+(movie["接吻镜头"]-2)**2)**0.5     #根据knn算法求距离
index=s.sort_values().index     #先将数据排序然后取出索引
fljg=movie["分类情况"][index[:5]]
print("\n{}".format(index),"\n分类：\n{}".format(fljg))


Int64Index([1, 3, 0, 2, 4, 5], dtype='int64') 
分类：
1    动作片
3    动作片
0    动作片
2    爱情片
4    爱情片
Name: 分类情况, dtype: object

识别梵文

import numpy
import os
import matplotlib.pyplot as plt
from sklearn.neighbors import KNeighborsClassifier
img=plt.imread(r"D:\Python\代码\Machine-Learn\1-KNN\data\手写字母测试与训练\梵文识别学习\Test\character_1_ka\1339.png")
plt.imshow(img,cmap=plt.cm.gray)


<matplotlib.image.AxesImage at 0x1af31dcc048>

#将读取的图片保存到数组data中
def img_read(dir_name,data):
    for filename in os.listdir(dir_name):
        img=plt.imread(dir_name+"\\"+filename)
        data.append(img)
def readTain():      #获取训练数据
    data=[]
    dir_path=r"D:\Python\代码\Machine-Learn\1-KNN\data\手写字母测试与训练\梵文识别学习\Train"
    for dir_name in os.listdir(dir_path)[36:]:
        dir_name=dir_path+"\\"+dir_name
        img_read(dir_name,data)
    return data
def readTest():     #获取测试数据
    data_test=[]
    dir_test_path=r"D:\Python\代码\Machine-Learn\1-KNN\data\手写字母测试与训练\梵文识别学习\Test"
    for dir_name in os.listdir(dir_test_path)[36:]:
        dir_name=dir_test_path+"\\"+dir_name
        img_read(dir_name,data_test)
    return data_test
x=readTain()        #训练数据
train_x=numpy.array(x)
train_x_shape={}
train_x_shape["图片数量"]=test_x.shape[0]
train_x_shape["宽度"]=str(test_x.shape[1])+"px"
train_x_shape["高度"]=str(test_x.shape[2])+"px"
train_x_shape

{'图片数量': 3000, '宽度': '32px', '高度': '32px'}

x=readTest()       #测试数据
ndarray_x=numpy.array(x)
# 随机抽样测试数据
index=numpy.random.randint(0,3000,size=1000)
test_x=ndarray_x[index]
test_x_shape={}
test_x_shape["图片数量"]=test_x.shape[0]
test_x_shape["宽度"]=str(test_x.shape[1])+"px"
test_x_shape["高度"]=str(test_x.shape[2])+"px"
test_x_shape

{'图片数量': 1000, '宽度': '32px', '高度': '32px'}

# 对应的数字
num=[0,1,2,3,4,5,6,7,8,9]*300
test_y=numpy.array(num)
test_y.sort()
test_y=test_y[index]
test_y

array([0, 9, 8, 0, 3, 3, 0, 6, 6, 2, 1, 0, 2, 9, 0, 5, 5, 1, 7, 3, 1, 9,
       7, 3, 0, 8, 8, 4, 0, 5, 7, 7, 4, 3, 3, 1, 8, 2, 6, 1, 5, 0, 8, 6,
       0, 2, 7, 4, 3, 1, 9, 8, 9, 4, 2, 7, 5, 3, 0, 5, 9, 4, 1, 8, 5, 7,
       6, 5, 0, 9, 9, 1, 4, 9, 9, 5, 2, 6, 4, 6, 2, 2, 2, 6, 7, 7, 4, 3,
       8, 7, 2, 5, 4, 2, 6, 0, 9, 9, 5, 8, 4, 3, 7, 5, 0, 1, 5, 7, 1, 3,
       3, 9, 5, 8, 6, 6, 7, 5, 6, 5, 1, 6, 0, 3, 6, 3, 5, 3, 4, 5, 8, 9,
       7, 2, 3, 9, 5, 6, 6, 0, 3, 2, 3, 5, 8, 8, 8, 2, 3, 0, 7, 9, 6, 0,
       9, 8, 8, 6, 6, 6, 9, 2, 8, 6, 6, 7, 4, 6, 1, 7, 2, 4, 2, 6, 6, 7,
       9, 4, 9, 0, 7, 6, 6, 7, 9, 9, 5, 3, 1, 1, 8, 1, 0, 6, 6, 3, 5, 4,
       7, 3, 3, 5, 0, 3, 1, 9, 2, 9, 7, 0, 6, 1, 2, 6, 4, 2, 3, 0, 4, 3,
       4, 9, 2, 6, 8, 4, 2, 1, 5, 1, 0, 7, 9, 2, 4, 8, 4, 4, 5, 0, 4, 1,
       1, 5, 0, 4, 4, 7, 4, 1, 2, 1, 0, 1, 2, 5, 6, 6, 1, 7, 6, 7, 6, 5,
       0, 2, 4, 8, 7, 7, 9, 8, 1, 7, 9, 8, 5, 0, 2, 9, 7, 8, 2, 0, 5, 4,
       3, 3, 6, 1, 4, 5, 9, 9, 5, 4, 0, 9, 9, 4, 3, 9, 8, 2, 3, 5, 6, 4,
       8, 5, 0, 2, 6, 5, 5, 7, 2, 1, 8, 6, 4, 7, 9, 7, 2, 6, 4, 4, 3, 9,
       5, 4, 4, 0, 5, 1, 5, 8, 9, 6, 5, 3, 2, 3, 4, 1, 6, 0, 0, 8, 1, 3,
       0, 4, 0, 6, 5, 9, 0, 8, 7, 5, 4, 2, 0, 3, 8, 4, 3, 2, 0, 5, 0, 8,
       3, 1, 2, 5, 6, 3, 6, 0, 5, 9, 9, 8, 2, 3, 2, 1, 4, 6, 1, 7, 9, 2,
       1, 5, 4, 1, 3, 3, 9, 5, 1, 4, 0, 1, 7, 2, 4, 3, 4, 0, 0, 0, 3, 5,
       0, 4, 3, 5, 3, 0, 7, 7, 5, 1, 7, 2, 5, 8, 0, 0, 5, 1, 9, 5, 8, 8,
       5, 4, 9, 7, 4, 2, 9, 2, 9, 5, 8, 8, 4, 9, 7, 1, 5, 1, 1, 0, 6, 9,
       1, 6, 3, 3, 7, 1, 6, 0, 7, 8, 7, 3, 6, 7, 9, 1, 1, 1, 8, 8, 8, 9,
       1, 4, 5, 1, 0, 7, 3, 2, 9, 3, 7, 7, 1, 7, 6, 8, 3, 8, 3, 0, 4, 3,
       1, 0, 3, 3, 2, 5, 6, 6, 6, 2, 9, 4, 6, 3, 7, 6, 1, 8, 8, 4, 2, 6,
       3, 7, 8, 0, 6, 4, 4, 9, 9, 2, 3, 5, 9, 2, 1, 4, 3, 9, 5, 8, 9, 5,
       5, 2, 2, 7, 4, 5, 4, 6, 4, 0, 5, 9, 6, 4, 6, 9, 2, 0, 4, 6, 6, 7,
       5, 8, 8, 8, 5, 8, 9, 0, 0, 3, 2, 7, 7, 3, 3, 4, 5, 2, 3, 3, 1, 0,
       9, 1, 1, 8, 1, 3, 9, 8, 7, 1, 6, 9, 1, 7, 8, 4, 9, 5, 6, 4, 2, 3,
       8, 3, 4, 8, 3, 8, 7, 5, 5, 0, 6, 2, 9, 8, 6, 6, 6, 5, 2, 9, 0, 1,
       8, 1, 2, 6, 6, 6, 5, 4, 3, 2, 0, 6, 6, 3, 4, 5, 3, 8, 6, 4, 5, 4,
       7, 6, 5, 4, 5, 8, 9, 4, 5, 5, 2, 5, 1, 5, 6, 4, 4, 1, 4, 1, 9, 8,
       8, 7, 1, 9, 3, 5, 2, 5, 8, 0, 2, 7, 2, 2, 7, 5, 8, 0, 6, 0, 7, 0,
       4, 2, 8, 6, 3, 3, 3, 8, 3, 6, 7, 5, 3, 9, 3, 8, 5, 8, 6, 2, 2, 0,
       1, 9, 2, 6, 2, 8, 6, 0, 7, 0, 3, 4, 9, 4, 1, 2, 2, 3, 5, 5, 7, 9,
       9, 7, 0, 6, 5, 8, 3, 1, 6, 8, 4, 1, 6, 7, 3, 9, 5, 1, 4, 5, 7, 1,
       0, 5, 9, 4, 9, 5, 3, 6, 2, 2, 2, 3, 9, 0, 0, 2, 3, 2, 9, 9, 1, 8,
       4, 7, 1, 1, 2, 4, 3, 4, 9, 7, 4, 7, 8, 6, 0, 4, 8, 7, 0, 6, 0, 5,
       4, 0, 9, 7, 2, 9, 4, 0, 3, 0, 8, 4, 3, 5, 4, 5, 2, 2, 2, 7, 9, 0,
       7, 2, 1, 5, 3, 6, 5, 3, 3, 1, 3, 4, 6, 4, 1, 5, 7, 7, 0, 7, 0, 3,
       1, 2, 2, 3, 6, 1, 8, 3, 9, 5, 9, 7, 7, 8, 4, 3, 0, 1, 5, 1, 7, 5,
       8, 5, 8, 5, 1, 7, 4, 8, 0, 2, 8, 8, 3, 2, 8, 6, 2, 1, 0, 2, 7, 3,
       4, 2, 6, 3, 3, 9, 9, 1, 8, 9, 7, 4, 9, 8, 4, 4, 7, 0, 7, 0, 2, 0,
       0, 2, 8, 7, 3, 6, 6, 2, 4, 2, 0, 4, 9, 0, 4, 3, 7, 5, 7, 7, 2, 6,
       9, 3, 1, 0, 4, 1, 7, 8, 4, 5, 1, 4, 1, 0, 9, 3, 9, 3, 7, 1, 9, 2,
       0, 2, 5, 2, 9, 1, 6, 0, 2, 1, 8, 5, 0, 1, 8, 2, 0, 0, 8, 3, 1, 1,
       9, 5, 9, 7, 5, 6, 5, 7, 1, 1])

# 对应的数字
num=[0,1,2,3,4,5,6,7,8,9]*1700
train_y=numpy.array(num)
train_y.sort()
train_y

array([0, 0, 0, ..., 9, 9, 9])

# 将三维数据变为二维，fit训练数据不支持二维以上数据
train_x.reshape(17000,1024)
test_x.reshape(1000,1024)

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]], dtype=float32)

# %%time
# 训练数据
knn=KNeighborsClassifier(n_neighbors=5)
knn.fit(train_x.reshape(17000,-1),train_y)


KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

# %%time
# 获得结果
y_result=knn.predict(test_x.reshape(1000,1024))
print("预测结果：\n{}".format(y_result[500:700]),"\n实际结果：\n{}".format(test_y[500:700]))

预测结果：
[6 3 2 8 5 0 2 8 4 3 7 2 7 7 9 1 5 3 4 0 9 5 2 0 5 2 0 0 0 8 0 9 0 4 9 9 4
 1 3 6 0 8 6 4 6 8 2 0 7 3 2 5 6 1 4 7 7 4 5 9 7 9 0 7 0 2 1 8 7 5 4 9 2 4
 7 9 8 2 6 7 3 1 6 9 6 8 7 0 1 0 2 2 0 3 3 0 5 9 5 2 2 8 2 9 7 9 8 3 9 8 9
 0 7 4 2 4 9 0 3 4 3 8 6 2 2 9 5 3 1 8 2 5 1 3 7 2 7 3 2 8 1 3 5 2 1 7 9 4
 4 6 9 2 9 8 9 4 5 2 2 9 1 4 9 1 9 4 1 7 2 1 2 0 3 1 8 3 5 9 0 8 3 6 6 8 1
 6 1 2 0 0 0 2 1 0 5 7 9 2 7 9] 
实际结果：
[6 3 2 8 5 0 2 8 4 3 7 2 7 7 9 1 5 3 4 6 9 5 2 0 3 2 0 0 0 8 0 9 0 4 9 9 4
 1 3 6 0 8 6 4 6 8 2 0 7 3 2 5 6 1 4 7 7 4 5 9 7 9 0 7 0 2 1 8 7 5 4 9 2 4
 7 9 8 2 6 7 3 1 6 9 6 8 7 0 1 0 2 2 0 3 3 0 5 9 5 2 2 8 2 9 7 9 8 3 9 8 9
 0 7 4 2 4 9 0 3 4 3 8 6 2 2 9 3 3 1 8 2 5 1 3 7 2 7 3 2 8 1 3 5 2 1 7 9 4
 4 6 9 2 9 8 9 4 5 5 2 9 1 4 9 1 9 4 1 7 2 1 2 0 3 1 8 3 5 9 0 8 3 6 6 8 1
 6 1 2 0 0 0 2 1 0 5 7 9 2 7 9]

# 准确率
acc=(test_y==y_result).mean()
print("准确率为：{}".format(acc))

准确率为：0.984

提高准确率

# 准确率与邻居数无关
knn=KNeighborsClassifier(n_neighbors=10)
knn.fit(train_x.reshape(17000,-1),train_y)
# score（）方法既可以预测还可以求出准确率
knn.score(test_x.reshape(1000,1024),test_y)

0.974

# 改变权重为邻居数距离越近权重越高，距离越远权重越低；有的时候可以提高，有的时候不能提高
knn=KNeighborsClassifier(n_neighbors=5,weights="distance")
knn.fit(train_x.reshape(17000,-1),train_y)
# score（）方法既可以预测还可以求出准确率
knn.score(test_x.reshape(1000,1024),test_y)

0.981

# p=1，使用曼哈顿距离为算法核心
# n_jobs是进程数，当=-1时，CPU有几个核就开启几个进程，提高运行速度
knn=KNeighborsClassifier(n_neighbors=5,weights="distance",n_jobs=-1)
knn.fit(train_x.reshape(17000,-1),train_y)
# score（）方法既可以预测还可以求出准确率
knn.score(test_x.reshape(1000,1024),test_y)

KNN算法的优势和劣势

了解KNN算法的优势和劣势，可以帮助我们在选择学习算法的时候做出更加明智的决定。那我们就来看看KNN算法都有哪些优势以及其缺陷所在！

KNN算法优点

简单易用，相比其他算法，KNN算是比较简洁明了的算法。即使没有很高的数学基础也能搞清楚它的原理。
模型训练时间快，上面说到KNN算法是惰性的，这里也就不再过多讲述。
预测效果好。
对异常值不敏感

KNN算法缺点

对内存要求较高，因为该算法存储了所有训练数据
预测阶段可能很慢
对不相关的功能和数据规模敏感

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

机器学习之KNN算法实践

KNN算法介绍

2.1距离计算

三.KNN特点

KNN算法分类电影

电影分类运行原理

识别梵文

提高准确率

KNN算法的优势和劣势

KNN算法优点

KNN算法缺点

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

机器学习之KNN算法实践

KNN算法介绍

2.1距离计算

三.KNN特点

KNN算法分类电影

电影分类运行原理

识别梵文

提高准确率

KNN算法的优势和劣势

KNN算法优点

KNN算法缺点

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品