- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

K-means与层次聚类的原理、比较与应用

i-WIFI 发表于 2025/09/27 16:23:32 2025/09/27

【摘要】聚类算法是无监督学习领域中的重要分支，旨在将数据集中的数据对象划分为若干个相似的子集（簇）。本文详细介绍了两种常见的聚类算法——K-means和层次聚类，包括它们的基本原理、算法流程、优缺点以及应用场景，并通过表格和流程图等形式进行了直观展示，以便更好地理解和比较这两种算法。一、引言聚类分析在众多领域如数据分析、图像识别、客户细分等有着广泛的应用。它能够帮助我们从大量数据中发现潜在的模式和...

聚类算法是无监督学习领域中的重要分支，旨在将数据集中的数据对象划分为若干个相似的子集（簇）。本文详细介绍了两种常见的聚类算法——K-means和层次聚类，包括它们的基本原理、算法流程、优缺点以及应用场景，并通过表格和流程图等形式进行了直观展示，以便更好地理解和比较这两种算法。

一、引言

聚类分析在众多领域如数据分析、图像识别、客户细分等有着广泛的应用。它能够帮助我们从大量数据中发现潜在的模式和结构，无需事先知道数据的类别标签。K-means和层次聚类作为经典的聚类算法，各自具有独特的特点和适用范围。

二、K-means聚类算法

（一）基本原理

K-means算法是一种基于划分的聚类算法，其目标是将数据集划分为K个不同的簇，使得每个数据点到其所属簇的中心（质心）的距离之和最小。这里的距离通常使用欧几里得距离来衡量。

（二）算法流程

初始化：随机选择K个数据点作为初始的簇中心。
分配数据点：对于数据集中的每个数据点，计算其与K个簇中心的距离，并将其分配到距离最近的簇中心所对应的簇中。
更新簇中心：重新计算每个簇的中心，即该簇中所有数据点的均值。
重复步骤2和3：直到簇中心不再发生变化或者达到预设的迭代次数。

（三）示例代码（Python）

import numpy as np

def kmeans(X, k, max_iters=100):
    # 随机初始化簇中心
    centroids = X[np.random.choice(X.shape[0], k, replace=False)]

    for _ in range(max_iters):
        # 分配数据点到最近的簇
        distances = np.linalg.norm(X[:, np.newaxis] - centroids, axis=2)
        labels = np.argmin(distances, axis=1)

        # 更新簇中心
        new_centroids = np.array([X[labels == i].mean(axis=0) for i in range(k)])

        # 判断是否收敛
        if np.all(centroids == new_centroids):
            break

        centroids = new_centroids

    return labels, centroids

（四）优缺点

优点：
- 算法简单易懂，易于实现。
- 计算效率较高，对于大规模数据集也能较快收敛。
缺点：
- 对初始簇中心的选择敏感，不同的初始值可能导致不同的聚类结果。
- 只能发现球形或近似球形的簇，对于非凸形状的簇效果不佳。

（五）应用场景

客户细分：根据客户的消费行为、特征等将客户分为不同的群体，以便企业制定针对性的营销策略。
图像分割：将图像中的像素点根据颜色、纹理等特征进行聚类，实现图像的分割。

三、层次聚类算法

（一）基本原理

层次聚类算法是一种基于层次结构的聚类方法，它通过不断合并或分裂簇来构建聚类的层次结构。根据构建层次结构的方式不同，可分为凝聚式层次聚类和分裂式层次聚类。凝聚式层次聚类从每个数据点作为一个单独的簇开始，逐步合并相似的簇；分裂式层次聚类则从所有数据点属于同一个簇开始，逐步分裂成更小的簇。本文主要介绍凝聚式层次聚类。

（二）算法流程

初始化：将数据集中的每个数据点看作一个单独的簇。
计算簇间距离：计算每两个簇之间的距离，常用的距离度量方法有单链接（最近邻距离）、全链接（最远邻距离）、平均链接（平均距离）等。
合并最近的簇：找到距离最近的两个簇，并将它们合并为一个新的簇。
更新簇间距离：重新计算新簇与其他簇之间的距离。
重复步骤3和4：直到所有的数据点都合并为一个簇或者达到预设的聚类数量。

（三）流程图

Lexical error on line 2. Unrecognized text. graph TD; A[初始化：每个数据点作为一个簇] --> B[计 ------------------^

（四）优缺点

优点：
- 不需要预先指定聚类的数量，聚类结果的展示形式直观，能够清晰地看到数据的层次结构。
- 对数据的分布没有严格的假设，适用于各种形状的数据。
缺点：
- 计算复杂度较高，尤其是在处理大规模数据集时，计算量较大。
- 一旦一个合并或者分裂操作完成，就不能再撤销，可能会导致聚类结果不理想。

（五）应用场景

生物学分类：对物种、基因等进行层次聚类，揭示生物之间的进化关系。
文档聚类：将文档按照主题、内容等进行层次聚类，方便用户浏览和检索信息。

四、K-means与层次聚类的比较

（一）表格对比

比较项目	K-means	层次聚类
算法类型	基于划分	基于层次结构
聚类数量	需要预先指定	不需要预先指定
计算复杂度	较低，适合大规模数据集	较高，不适合大规模数据集
聚类形状	适合球形或近似球形簇	适合各种形状的簇
结果展示	簇的划分结果	聚类的层次结构

（二）适用场景总结

如果数据集规模较大且对聚类数量有明确的预期，同时对聚类结果的形状没有特殊要求，K-means算法是一个较好的选择。
如果数据集规模较小且希望探索数据的层次结构，或者对聚类数量没有明确的限制，层次聚类算法更为合适。

五、结论

K-means和层次聚类是两种经典且常用的聚类算法，它们各自具有独特的优势和适用场景。在实际应用中，我们需要根据数据集的特点和分析需求来选择合适的聚类算法。同时，还可以结合其他聚类算法或对现有算法进行改进，以获得更好的聚类效果。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

K-means与层次聚类的原理、比较与应用

一、引言

二、K-means聚类算法

（一）基本原理

（二）算法流程

（三）示例代码（Python）

（四）优缺点

（五）应用场景

三、层次聚类算法

（一）基本原理

（二）算法流程

（三）流程图

（四）优缺点

（五）应用场景

四、K-means与层次聚类的比较

（一）表格对比

（二）适用场景总结

五、结论

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

K-means与层次聚类的原理、比较与应用

一、引言

二、K-means聚类算法

（一）基本原理

（二）算法流程

（三）示例代码（Python）

（四）优缺点

（五）应用场景

三、层次聚类算法

（一）基本原理

（二）算法流程

（三）流程图

（四）优缺点

（五）应用场景

四、K-means与层次聚类的比较

（一）表格对比

（二）适用场景总结

五、结论

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品