- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

《深入理解AutoML和AutoDL：构建自动化机器学习与深度学习平台》 —3.2.3　聚类问题

举报

华章计算机发表于 2019/11/15 15:46:15 2019/11/15

【摘要】本节书摘来自华章计算机《深入理解AutoML和AutoDL：构建自动化机器学习与深度学习平台》一书中第3章，第3.2.3节，作者是王健宗　瞿晓阳　　。

3.2.3　聚类问题

常见的聚类问题的算法当属k-means算法了，k-means算法的核心思想是簇识别。假定有一些数据，把相似数据归到一起，簇识别会告诉我们这些簇到底是什么。簇的个数是用户给定的，每一个簇都有一个“心脏”—聚类中心，也叫质心（centroid）。聚类与分类的最大不同是，分类的目标事先已知，而聚类则不知道分类标签是什么，只能根据相似度来给数据贴上不同的标签。相似度的度量最常用的是欧氏距离。k-means算法的基本流程如下：

1）给定输入训练数据：

2）随机选择初始的k个聚类中心：

3）对每个样本数据，将其类别标号设为距离其最近的聚类中心的标号：

4）将每个聚类中心的值更新为该类别所有样本的平均值：

5）重复第3步与第4步，直到算法收敛为止，此时的聚类中心将不再移动。

k-means算法的优化目标函数表示如下：

由于这个目标函数不是凸函数，因此不能保证算法会收敛到一个全局最优值，只能保证收敛到一个局部最优值。解决这个问题有两种方法：一是随机初始化多次，以最优的聚类结果为最终结果；二是二分k-means算法。

【版权声明】本文为华为云社区用户转载文章，如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

评论（0）

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长