《机器学习实战》kMeans算法（K均值聚类算法）

机器学习中有两类的大问题，一个是分类，一个是聚类。分类是根据一些给定的已知类别标号的样本，训练某种学习机器，使它能够对未知类别的样本进行分类。这属于supervised learning（监督学习）。而聚类指事先并不知道任何样本的类别标号，希望通过某种算法来把一组未知类别的样本划分成若干类别，这在机器学习中被称作 unsupervised learning （无监督学习）。在本文中，我们关注其中一个比较简单的聚类算法：k-means算法。

k-means算法是一种很常见的聚类算法，它的基本思想是：通过迭代寻找k个聚类的一种划分方案，使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。

其Python实现的代码如下：

#encoding:utf-8
from numpy import *
def loadDataSet(filename):
dataMat = [] #创建元祖
fr = open(filename)
for line in fr.readlines():
curLine = line.strip().split("\t")
fltLine = map(float,curLine) #使用map函数将curLine里的数全部转换为float型
dataMat.append(fltLine)
return dataMat
def distEclud(vecA,vecB): #计算两个向量的欧式距离
return sqrt(sum(power(vecA-vecB,2)))
def randCent(dataSet,k): #位给定数据集构建一个包含k个随机质心的集合
n = shape(dataSet)[1] #shape函数此时返回的是dataSet元祖的列数
centroids = mat(zeros((k,n))) #mat函数创建k行n列的矩阵，centroids存放簇中心
for j in range(n):
minJ = min(dataSet[:,j]) #第j列的最小值
rangeJ = float(max(dataSet[:,j]) - minJ)
centroids[:,j] = minJ + rangeJ * random.rand(k,1) #random.rand(k,1)产生shape(k,1)的矩阵
return centroids
def kMeans(dataSet,k,disMeas = distEclud,createCent = randCent):
m = shape(dataSet)[0] #shape函数此时返回的是dataSet元祖的行数
clusterAssment = mat(zeros((m,2))) #创建一个m行2列的矩阵，第一列存放索引值，第二列存放误差，误差用来评价聚类效果
centroids = createCent(dataSet,k) #创建k个质心，调用createCent()函数
clusterChanged =True #标志变量，若为true则继续迭代
print "质心位置更新过程变化："
while clusterChanged:
clusterChanged = False
for i in range(m):
minDist = inf #inf为正无穷大
minIndex = -1 #创建索引
for j in range(k):
#寻找最近的质心
disJI = disMeas(centroids[j,:],dataSet[i,:]) #计算每个点到质心的欧氏距离
if disJI(array([0, 0, 1]), array([0, 2, 0]))
#print array(nonzero(b2))
#=>[[0, 0, 1],[0, 2, 0]]
centroids[cent,:] = mean(ptsInClust,axis=0) #计算所有点的均值，选项axis=0表示沿矩阵的列方向进行均值计算
return centroids,clusterAssment #返回所有的类质心与点分配结果
datMat = mat(loadDataSet('data.txt'))
myCentroids,clustAssing = kMeans(datMat,2)
print "最终质心：\n",myCentroids
print "索引值和均值：\n",clustAssing

k-means算法比较简单，但也有几个比较大的缺点：
1）k值的选择是用户指定的，不同的k得到的结果会有挺大的不同，如下图所示，左边是k=3的结果，这个就太稀疏了，蓝色的那个簇其实是可以再划分成两个簇的。而右图是k=5的结果，可以看到红色菱形和蓝色菱形这两个簇应该是可以合并成一个簇的：

2）对k个初始质心的选择比较敏感，容易陷入局部最小值。例如，我们上面的算法运行的时候，有可能会得到不同的结果，如下面这两种情况。K-means也是收敛了，只是收敛到了局部最小值：

3）存在局限性，如下面这种非球状的数据分布就搞不定了

4）数据库比较大的时候，收敛会比较慢.

K均值聚类中簇的值k是用户预先定义的一个参数，那么用户如何才能知道k的选择是否正确？如何才能知道生成的簇比较好？在计算的过程中保留了每个点的误差，即该点到簇质心的距离平方值，下面将讨论利用该误差来评价聚类质量好坏的方法，引入度量聚类效果的指标SSE（sum of squared Error，误差平方和），SSE值越小，越接近于他们的质心，聚类效果也越好，有一种可以肯定减小SSE值得方法是增加k的数目，但这个违背了聚类的目标，聚类的目标是在保持簇数目不变的情况下提高簇的质量。

接下来要讨论的是利用簇划分技术得到更好的聚类效果——二分K-均值算法

机器学习中的K-means算法的python实现的更多相关文章

Fuzzy C Means 算法及其 Python 实现——写得很清楚，见原文
Fuzzy C Means 算法及其 Python 实现转自:http://note4code.com/2015/04/14/fuzzy-c-means-%E7%AE%97%E6%B3%95%E5% ...
分类算法——k最近邻算法（Python实现）（文末附工程源代码）
kNN算法原理 k最近邻(k-Nearest Neighbor)算法是比较简单的机器学习算法.它采用测量不同特征值之间的距离方法进行分类,思想很简单:如果一个样本在特征空间中的k个最近邻(最相似)的样 ...
机器学习03：K近邻算法
本文来自同步博客. P.S. 不知道怎么显示数学公式以及排版文章.所以如果觉得文章下面格式乱的话请自行跳转到上述链接.后续我将不再对数学公式进行截图,毕竟行内公式截图的话排版会很乱.看原博客地址会有更 ...
《机器学习实战》-k近邻算法
目录 K-近邻算法 k-近邻算法概述解析和导入数据使用 Python 导入数据实施 kNN 分类算法测试分类器使用 k-近邻算法改进约会网站的配对效果收集数据准备数据:使用 Python ...
02机器学习实战之K近邻算法
第2章 k-近邻算法 KNN 概述 k-近邻(kNN, k-NearestNeighbor)算法是一种基本分类与回归方法,我们这里只讨论分类问题中的 k-近邻算法. 一句话总结:近朱者赤近墨者黑! k ...
机器学习：1.K近邻算法
1.简单案例:预测男女,根据身高,体重,鞋码 import numpy as np import matplotlib import sklearn from skleran.neighbors im ...
机器学习实战笔记--k近邻算法
#encoding:utf-8 from numpy import * import operator import matplotlib import matplotlib.pyplot as pl ...
机器学习随笔01 - k近邻算法
算法名称: k近邻算法 (kNN: k-Nearest Neighbor) 问题提出: 根据已有对象的归类数据,给新对象(事物)归类. 核心思想: 将对象分解为特征,因为对象的特征决定了事对象的分类. ...
机器学习基础——简单易懂的K邻近算法，根据邻居“找自己”
本文始发于个人公众号:TechFlow,原创不易,求个关注今天的文章给大家分享机器学习领域非常简单的模型--KNN,也就是K Nearest Neighbours算法,翻译过来很简单,就是K最近邻居 ...
机器学习-- 入门demo1 k临近算法
1.k-近邻法简介 k近邻法(k-nearest neighbor, k-NN)是1967年由Cover T和Hart P提出的一种基本分类与回归方法. 它的工作原理是:存在一个样本数据集合,也称作为 ...

随机推荐

python 常见算法
python虽然具备很多高级模块,也是自带电池的编程语言,但是要想做一个合格的程序员,基本的算法还是需要掌握,本文主要介绍列表的一些排序算法递归是算法中一个比较核心的概念,有三个特点,1 调用自身 ...
[转]ICE介绍 (RFC 5245)
[转]ICE介绍 (RFC 5245) http://blog.csdn.net/dxpqxb/article/details/22040017 1关于ICE的10个事实 1 ICE使用STUN和TU ...
animation，transform属性
animation属性使用@keyfarmes属性开启动画步骤结构体:@keyfarmes name{ from{ } to{ } } @keyfarmes name{ 0%{ } 50%{ } ...
IPFS开发团队是如何工作的？
小编不是一个很八卦的人,连当红明星都认不全.不过,今天还是带领大家来扒一扒ipfs开发团队是如何工作的. 工作方式: 全体会议:每周一有一个全体会议,这个会议是提前安排好的一个日程任务讨论:把大任务 ...
快速排序及优化(Java实现)
普通快速排序找一个基准值base,然后一趟排序后让base左边的数都小于base,base右边的数都大于等于base.再分为两个子数组的排序.如此递归下去. public class QuickSo ...
C语言第九次博客作业--指针
一.PTA实验作业题目1:两个4位正整数的后两位互换 1. 本题PTA提交列表 2. 设计思路定义循环变量i,两个数组a[4],b[4] for i=0 to 3 a[i]*p取各个位 *p/=1 ...
TortoiseGit- 创建本地新分支，提交推送到远程，本地新分支合并到工作分支，提交到远程工作分支等。
整体思路: 创建本地新分支 (create branch) -- 切换到本地新分支工作 (switch/checkout) --提交修改 (commit) -- 推送到远程新分支 (push) ...
Linux centos 7 安装NFS服务
NFS服务简介:NFS是Network File System的缩写,即网络文件系统.客户端通过挂载的方式将NFS服务器端共享的数据目录挂载到本地目录下.---主要功能指的是共享文件为什么要安装NF ...
mariadb插入中文数据乱码解决过程
基本情况: 系统:centos 7 mariadb安装方式:yum 乱码解决过程: 查看当前数据库编码(登录数据库后) # show variables like 'character%'; (上图为 ...
JVM学习六：JVM之类加载器之双亲委派机制
前面我们知道类加载有系统自带的3种加载器,也有自定义的加载器,那么这些加载器之间的关系是什么,已经在加载类的时候,谁去加载呢?这节,我们将进行讲解. 一.双亲委派机制 JVM的ClassLoader采 ...

机器学习中的K-means算法的python实现

《机器学习实战》kMeans算法（K均值聚类算法）

机器学习中的K-means算法的python实现的更多相关文章

随机推荐

热门专题