聚类的紧张运用包括基于购买行为的客户细分,基于访问行为的网页分类,基于共享观点的***分类,地震研究,天体不雅观测,城市方案,打算机图像处理,以及医学影像处理等。
K-means是一种非常常见的聚类算法,基于距禦的聚类算法。
其事情事理是,首先随机选择K个点作为初始的聚类中央,然后打算所有样本到这K个点的间隔,并将每个样本划分到间隔最近的聚类中央对应的种别。
接着,更新每个类别的聚类中央,常日是打算种别中所有样本的均值。
重复这个过程,直到聚类中央不再发生变革,或者达到预设的最大迭代次数。

人工智能经典聚类算法_类中_样本 绘影字幕

K-means算法的紧张优点是大略易于实现,但是也有一些缺陷,比如对初始聚类中央的选择比较敏感,不同的初始聚类中央可能会得到完备不同的结果。
其余,K-means假设每个类别的形状是圆形的,对付其他形状的种别可能无法得到好的结果。
为理解决K-means对付初始聚类中央选择的敏感性问题,提出了K-means++算法。
K-means++在选择初始聚类中央时,不再是随机选择,而是按照一定的概率分布来选择。
详细来说,首先随机选择一个样本作为第一个聚类中央,然后打算所有样本到当前已经选择的聚类中央的最短间隔,间隔越远的样本当选中作为下一个聚类中央的概率越大。
这样可以确保初始聚类中央之间的间隔尽可能大,从而提高算法的稳定性和聚类质量。