Kmeans聚类算法分析(转帖)

原帖地址：http://www.opencvchina.com/thread-749-1-1.html

k-means是一种聚类算法，这种算法是依赖于点的邻域来决定哪些点应该分在一个组中。当一堆点都靠的比较近，那这堆点应该是分到同一组。使用k-means，可以找到每一组的中心点。当然，聚类算法并不局限于2维的点，也可以对高维的空间（3维，4维，等等）的点进行聚类，任意高维的空间都可以。

上图中的彩色部分是一些二维空间点。上图中已经把这些点分组了，并使用了不同的颜色对各组进行了标记。这就是聚类算法要做的事情。

K-means算法：
这个算法的输入是：
1：点的数据（这里并不一定指的是坐标，其实可以说是向量）
2：K，聚类中心的个数（即要把这一堆数据分成几组）
      所以，在处理之前，你先要决定将要把这一堆数据分成几组，即聚成几类。但并不是在所有情况下，你都事先就能知道需要把数据聚成几类的。但这也并不意味着使用k-means就不能处理这种情况，下文中会有讲解。
把相应的输入数据，传入k-means算法后，当k-means算法运行完后，该算法的输出是：
1：标签（每一个点都有一个标签，因为最终任何一个点，总会被分到某个类，类的id号就是标签）
2：每个类的中心点。
     标签，是表示某个点是被分到哪个类了。例如，在上图中，实际上有4中“标签”，每个“标签”使用不同的颜色来表示。所有黄色点我们可以用标签0表示，所有橘色点可以用标签1来表示，等等。
主体算法分析：
步骤1：得到数据集

      在本文中，使用上图的二维坐标(x,y)向量为数据集。假设我们要将这些点聚成5类，即k=5。我们可以看出，有3个类离的比较远，有两个类离得比较近，几乎要混合在一起了。
      当然，数据集不一定是坐标，假如你要对彩色图像进行聚类，那么你的向量就可以是(b,g,r)，如果使用的是hsv颜色空间，那还可以使用(h,s,v),当然肯定可以有不同的组合例如(b*b,g*r,r*b) ，(h*b,s*g,v*v)等等。
步骤2：产生初始的类中心

      在本文中，初始的类的中心点是随机产生的。如上图的红色点所示，是本文随机产生的初始点。注意观察那两个离得比较近的类，它们几乎要混合在一起，看看算法是如何将它们分开的。
      类的初始中心点是随机产生的。算法会不断迭代来矫正这些中心点，并最终得到比较靠近真实中心点的一组中心点。当然，最终的结果不一定就是真实的那一组中心点，算法会尽量向真实的靠近。
步骤3：根据中心点,划分其他点的归属(归属于哪个类)

      每个点(除了中心点的其他点)都计算与5个中心点的距离,选出一个距离最小的(例如该点与第2个中心点的距离是5个距离中最小的),那么该点就归属于该类.上图是点的归类结果示意图.
步骤4:重新计算中心点

      经过步骤3后,每一个中心center(i)点都有它的”管辖范围”,由于这个中心点不一定是这个管辖范围的真正中心点,所以要重新计算中心点,计算的方法有很多种,最简单的一种是,直接计算该管辖范围内所有点的均值,做为心的中心点new_center(i)。
      如果重新计算的中心点new_center(i)与原来的中心点center(i)的距离大于一定的阈值（该阈值可以设定），那么认为算法尚未收敛，使用new_center(i)代替center(i)（如图，中心点从红色点转移到绿色点），转步骤3；否则，认为算法已经收敛，则new_center(i)就是最终的中心点。
步骤5：结束

      现在，所有的中心都不再移动，即算法已经收敛。当然，也许这些中心点还没有达到你要的精度，由于计算这些中心点的准确性，会受初始中心点设置的影响。所以，如果初始中心设置的很糟糕，那么得出来的结果也会不理想。
问题及解决方法
使用k-means时，我们遇到了两个困难。
（1）在事先不知道要聚几类的情况下，该怎么办？
      可以从K=1开始，并且k值不断的增加，通常，随着k的增加，类中的方差会急剧的下降，当k达到一定大的时候，方差的下降会明显减慢（至于慢道何种程度，可以设阈值），此时，就选取到了最佳的k值。
（2）初始中心点的设定
      如果初始值没设置好，肯定也不能获得理想的聚类效果。针对这种情况，这里提供两种方法：随机的选取多组中心点，在每一组中心点上，都把kmeans算法运行一次。最后，在选取类间方差最小的一组。通过设定的选初始值方法（这里提供一种，当然自己也可以去构想其他的方法）：
1：在数据集上随机选择一个点，做为第一个中心点；
2：在数据集上，选取离第一个中心点最远的一个点做为第二个中心点。
3：在数据集上，选取离第一个和第二个中心最远的点，做为第三个中心。
4：依此计算后续的中心点

Kmeans聚类算法分析(转帖)的更多相关文章

转载： scikit-learn学习之K-means聚类算法与 Mini Batch K-Means算法
版权声明:<—— 本文为作者呕心沥血打造,若要转载,请注明出处@http://blog.csdn.net/gamer_gyt <—— 目录(?)[+] ================== ...
K-means聚类算法及python代码实现
K-means聚类算法(事先数据并没有类别之分!所有的数据都是一样的) 1.概述 K-means算法是集简单和经典于一身的基于距离的聚类算法采用距离作为相似性的评价指标,即认为两个对象的距离越近,其 ...
K-Means 聚类算法
K-Means 概念定义: K-Means 是一种基于距离的排他的聚类划分方法. 上面的 K-Means 描述中包含了几个概念: 聚类(Clustering):K-Means 是一种聚类分析(Clus ...
用scikit-learn学习K-Means聚类
在K-Means聚类算法原理中,我们对K-Means的原理做了总结,本文我们就来讨论用scikit-learn来学习K-Means聚类.重点讲述如何选择合适的k值. 1. K-Means类概述在sc ...
K-Means聚类算法原理
K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛.K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体 ...
K-means聚类算法
聚类分析(英语:Cluster analysis,亦称为群集分析) K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般.最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中, ...
k-means聚类算法python实现
K-means聚类算法算法优缺点: 优点:容易实现缺点:可能收敛到局部最小值,在大规模数据集上收敛较慢使用数据类型:数值型数据算法思想 k-means算法实际上就是通过计算不同样本间的距离来判断他 ...
K-Means 聚类算法原理分析与代码实现
前言在前面的文章中,涉及到的机器学习算法均为监督学习算法. 所谓监督学习,就是有训练过程的学习.再确切点,就是有 "分类标签集" 的学习. 现在开始,将进入到非监督学习领域.从经 ...
Kmeans聚类算法原理与实现
Kmeans聚类算法 1 Kmeans聚类算法的基本原理 K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一.K-means算法的基本思想是:以空间中k个点为中心进行聚类,对 ...

随机推荐

Dubbo的特点
1.介绍 DUBBO有良好的连通性.健壮性.伸缩性.升级性.结合dubbo可以相对于单体系统提升系统整体的扩展性 2. 连通性注册中心负责服务地址的注册与查找,相当于目录服务,服务提供者和消费者只在 ...
搭建 Android 集成开发环境
在搭建 Android 集成开发环境之前,我想说的是,我们学习的目标是同时掌握移动开发三种方式:iOS开发.Android开发和Html5手机网页开发.由于iOS的开发工具是采用苹果官方的XCode, ...
thinkphp结合ajax实现统计页面pv的浏览量
统计pv量很常用,下面的代码用ajax实现的,使用ajax可以避免页面缓存造成的影响,只要客户端的js代码执行了就可以统计流量. 一共就两部将下面代码放在要统计的html页面中,测试时把地址换成自己 ...
ref:下一个项目为什么要用 SLF4J
ref:http://blog.mayongfa.cn/267.html 阿里巴巴 Java 开发手册前几天阿里巴巴在云栖社区首次公开阿里官方Java代码规范标准,就是一个PDF手册,有命名规范,让 ...
RTSP 资料
分享两个不错的播客. http://blog.csdn.net/u010425035/article/details/10410851 http://blog.csdn.net/xiaoyafang1 ...
【知了堂学习笔记】java IO流归纳总结
皮皮潇最近学到了IO流但是感觉这一块要记的东西太多了,所以重API上查阅并总结了以下几点关于IO的知识. 1.File(文件类): File类是文件以及文件夹进行封装的对象,用对象的思想来操作文件和文 ...
虚拟机spark集群搭建
RDD弹性分布式数据集 (Resilient Distributed Dataset) RDD只读可分区,数据集可以缓存在内存中,在多次计算间重复利用. 弹性是指内存不够时可以与磁盘进行交互 join ...
【SQL】182. Duplicate Emails
Write a SQL query to find all duplicate emails in a table named Person. +----+---------+ | Id | Emai ...
python opencv3 背景分割 mog2 knn
git:https://github.com/linyi0604/Computer-Vision 使用mog2算法进行背景分割 # coding:utf-8 import cv2 # 获取摄像头对象 ...
python opencv3 矩形圆形边框
git:https://github.com/linyi0604/Computer-Vision # coding:utf8 import cv2 import numpy as np # 读入图像 ...

Kmeans聚类算法分析(转帖)

Kmeans聚类算法分析(转帖)的更多相关文章

随机推荐

热门专题