人工智能经典聚类算法_类中_样本

2024-11-11 22:06:23 绘影字幕

聚类的紧张运用包括基于购买行为的客户细分，基于访问行为的网页分类，基于共享观点的***分类，地震研究，天体不雅观测，城市方案，打算机图像处理，以及医学影像处理等。
K-means是一种非常常见的聚类算法，基于距禦的聚类算法。
其事情事理是，首先随机选择K个点作为初始的聚类中央，然后打算所有样本到这K个点的间隔，并将每个样本划分到间隔最近的聚类中央对应的种别。
接着，更新每个类别的聚类中央，常日是打算种别中所有样本的均值。
重复这个过程，直到聚类中央不再发生变革，或者达到预设的最大迭代次数。

人工智能经典聚类算法_类中_样本绘影字幕

K-means算法的紧张优点是大略易于实现，但是也有一些缺陷，比如对初始聚类中央的选择比较敏感，不同的初始聚类中央可能会得到完备不同的结果。
其余，K-means假设每个类别的形状是圆形的，对付其他形状的种别可能无法得到好的结果。
为理解决K-means对付初始聚类中央选择的敏感性问题，提出了K-means++算法。
K-means++在选择初始聚类中央时，不再是随机选择，而是按照一定的概率分布来选择。
详细来说，首先随机选择一个样本作为第一个聚类中央，然后打算所有样本到当前已经选择的聚类中央的最短间隔，间隔越远的样本当选中作为下一个聚类中央的概率越大。
这样可以确保初始聚类中央之间的间隔尽可能大，从而提高算法的稳定性和聚类质量。