K均值聚类是一种应用广泛的聚类技术,特别是它不依赖于任何对数据所做的假设,比如说,给定一个数据集合及对应的类数目,就可以运用K均值方法,通过最小化均方误差,来进行聚类分析. 因此,K均值实际上是一个最优化问题.在一些已知的文献中论述了K均值聚类的一下一些缺点: K均值假设每个变量的分布是球形的: 所有的变量具有相同的方差: 类具有相同的先验概率,要求每个类拥有相同数量的观测: 上述三条任何一条不满足,K均值算法即失效了 对于要求具有相同的先验概率这一条件,个人不是太赞同.在我看来,K均值的计算过