K均值聚类的失效性分析

K均值聚类是一种应用广泛的聚类技术，特别是它不依赖于任何对数据所做的假设，比如说，给定一个数据集合及对应的类数目，就可以运用K均值方法，通过最小化均方误差，来进行聚类分析。

因此，K均值实际上是一个最优化问题。在一些已知的文献中论述了K均值聚类的一下一些缺点：

K均值假设每个变量的分布是球形的；
所有的变量具有相同的方差；
类具有相同的先验概率，要求每个类拥有相同数量的观测；
上述三条任何一条不满足，K均值算法即失效了

对于要求具有相同的先验概率这一条件，个人不是太赞同。在我看来，K均值的计算过程是最小化均方误差，看起来不需要任何的假设，因此也找不到这一计算过程和上述三个条件的联系。为了对上述三个条件进行验证，我们认为生成了一些数据，并运用K均值算法进行聚类。

为简便起见，在此仅分析了以上2个假设，同时假设数据是2维的。

球形分布 OR 非球形分布

一个典型的非球形分布如下图所示：

在这个图中，我们可以直观的看出观测可以分成两类：中心位置的样本数据为一类、外围圆上的样本数据为一类。

使用K均值聚类的效果如下：

K均值试图最小化均方误差，并且得到了一个明显错误的聚类结果。

你可能会说，这不是一个公平的例子，没有聚类方法可以处理这么怪异的类分布。事实并非如此，single linkage hierachical clustering（层次聚类算法的一种）算法就是一个很不错的选择，下面是该算法得到的一个聚类效果：

这是因为single linkage hierachical clustering算法对数据集做了正确的假设(实际上，在其他的情况下，该算法也可能会失效，同时任何算法本身就是有局限的)。

实际上，对于这类数据，K均值仍然可以正常的工作。在此，将以上数据转换成极坐标的形式，得到如下的聚类效果：

因此，使用模型的时候，理解模型的过程及需要的运用条件是至关重要的。

非均衡样本数据集的聚类：

在样本数量不均衡的情况下，K均值聚类的效果如何呢？在此，我们利用多维高斯分布生产了包含三个类的数据集，类样本的数量分别是20、100、500，如下图所示：

看起来K均值算法可以很好的处理这类问题，是骡子是马拉出来遛遛，使用K均值聚类效果如下：

在最小化均方误差的过程中，大类由于数量庞大，最终的误差基本取决于大类的误差，因此小类直接被忽视掉了。在这种情况下，小类最好的方式就是在空间上与大类保持一定的距离，聚类时，才能独立成类。否则，容易被误认为离群点进行处理。

总结：

“天下没有免费的午餐”，这句谚语在机器学习中非常受用，没有一个算法可以很好的处理所有的情况。理解每种算法，及其所需的假设，在运用具体的算法时，通过对数据的预处理有时可以将数据变换至对应的假设上，以使得算法能够正常的工作。

对算法工作人员而言，不仅理解算法重要，算法的应用场景的理解也显得尤为重要，不同的数据，需要有不同的数据预处理方式、也需要有不同的算法与之对应，解决实际问题时才更为有效。

最后，对数据实验而言，不要害怕失败，如果选取的模型从来没有错误过，是不是也意味着这个模型也从来没有正确过呢？

对内容有部分的改动和精简，更多详情可以查看原文。

英文原文地址：K-means clustering is not a free lunch

K均值聚类的失效性分析的更多相关文章

【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
机器学习理论与实战（十）K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...
第十篇：K均值聚类(KMeans)
前言本文讲解如何使用R语言进行 KMeans 均值聚类分析,并以一个关于人口出生率死亡率的实例演示具体分析步骤. 聚类分析总体流程 1. 载入并了解数据集:2. 调用聚类函数进行聚类:3. 查看聚类 ...
探索sklearn | K均值聚类
1 K均值聚类 K均值聚类是一种非监督机器学习算法,只需要输入样本的特征 ,而无需标记. K均值聚类首先需要随机初始化K个聚类中心,然后遍历每一个样本,将样本归类到最近的一个聚类中,一个聚类中样本特征 ...
k均值聚类算法原理和（TensorFlow）实现
顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...
5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
Python实现kMeans(k均值聚类)
Python实现kMeans(k均值聚类) 运行环境 Pyhton3 numpy(科学计算包) matplotlib(画图所需,不画图可不必) 计算过程 st=>start: 开始 e=> ...
K均值聚类
聚类(cluster)与分类的不同之处在于, 分类算法训练过程中样本所属的分类是已知的属监督学习. 而聚类算法不需要带有分类的训练数据,而是根据样本特征的相似性将其分为几类,又称为无监督分类. K均值 ...

随机推荐

用js来实现那些数据结构10（集合02-集合的操作）
前一篇文章我们一起实现了自定义的set集合类.那么这一篇我们来给set类增加一些操作方法.那么在开始之前,还是有必要解释一下集合的操作有哪些.便于我们更快速的理解代码. 1.并集:对于给定的两个集合, ...
●BZOJ 3994 [SDOI2015]约数个数和
题链: http://www.lydsy.com/JudgeOnline/problem.php?id=3994 题解: 莫比乌斯反演 (先定义这样一个符号[x],如果x为true,则[x]=1,否则 ...
USACO 2017 January Platinum
因为之前忘做了,赶紧补上. T1.Promotion Counting 题目大意:给定一个以1为根的N个节点的树(N<=100,000),每个节点有一个权值,对于每个节点求出权值比它大的子孙的个 ...
bzoj 3261最大异或和
Description 给定一个非负整数序列{a},初始长度为N. 有M个操作,有以下两种操作类型: 1.Ax:添加操作,表示在序列末尾添加一个数x,序列的长度N+1. 2.Qlrx:询问操作,你需要 ...
ml-agent：Win10下环境安装
这是我看到的最全面最详细的ml-agent讲解.(只用于学习与知识分享,如有侵权,联系删除.谢谢!) 来自CodeGize的个人博客 .源链接:https://www.cnblogs.com/Code ...
C++中的各种可调用对象
概述一组执行任务的语句都可以视为一个函数,一个可调用对象.在程序设计的过程中,我们习惯于把那些具有复用性的一组语句抽象为函数,把变化的部分抽象为函数的参数. 函数的使用能够极大的极少代码重复率,提高 ...
combobox数据绑定
jquery easyui datagrid 可编辑行 combobox数据绑定问题将带有参数的url地址赋值给变量,然后将变量赋值给url <script type="text/j ...
Day 1 Python简单程序
一.高级语言和低级语言最初的计算机程序都是用0和1的序列表示的,程序员直接使用的是机器指令,无需翻译,从纸带打孔输入即可执行得到结果.后来为了方便记忆,就将用0.1序列表示的机器指令都用符号助记 ...
Page Object设计模式实践
Page Object模式是使用Selenium的广大同行最为公认的一种设计模式.在设计测试时,把元素和方法按照页面抽象出来,分离成一定的对象,然后再进行组织. Page Object模式,创建一个对 ...
如何搭建ssh服务？
为了日后便于查询,本文所涉及到的所有命令集合如下: rpm -qa | grep openssh #查看是否安装了openssh软件 service sshd status #服务端的ssh状态 if ...

K均值聚类的失效性分析

K均值聚类的失效性分析的更多相关文章

随机推荐

热门专题