《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》 —3.2.3 聚类问题

华章计算机 发表于 2019/11/15 15:46:15 2019/11/15
【摘要】 本节书摘来自华章计算机《深入理解AutoML和AutoDL:构建自动化机器学习与深度学习平台》一书中第3章,第3.2.3节,作者是王健宗 瞿晓阳  。

3.2.3 聚类问题

常见的聚类问题的算法当属k-means算法了,k-means算法的核心思想是簇识别。假定有一些数据,把相似数据归到一起,簇识别会告诉我们这些簇到底是什么。簇的个数是用户给定的,每一个簇都有一个“心脏”—聚类中心,也叫质心(centroid)。聚类与分类的最大不同是,分类的目标事先已知,而聚类则不知道分类标签是什么,只能根据相似度来给数据贴上不同的标签。相似度的度量最常用的是欧氏距离。k-means算法的基本流程如下:

1)给定输入训练数据:

     image.png

2)随机选择初始的k个聚类中心:

     image.png

3)对每个样本数据,将其类别标号设为距离其最近的聚类中心的标号:

     image.png

4)将每个聚类中心的值更新为该类别所有样本的平均值:

     image.png

5)重复第3步与第4步,直到算法收敛为止,此时的聚类中心将不再移动。

k-means算法的优化目标函数表示如下:

     image.png

由于这个目标函数不是凸函数,因此不能保证算法会收敛到一个全局最优值,只能保证收敛到一个局部最优值。解决这个问题有两种方法:一是随机初始化多次,以最优的聚类结果为最终结果;二是二分k-means算法。


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。