K-均值聚类算法

聚类是一种无监督的学习算法，它将相似的数据归纳到同一簇中。K-均值是因为它可以按照k个不同的簇来分类，并且不同的簇中心采用簇中所含的均值计算而成。

K-均值算法

算法思想

K-均值是把数据集按照k个簇分类，其中k是用户给定的，其中每个簇是通过质心来计算簇的中心点。

主要步骤：

随机确定k个初始点作为质心
对数据集中的每个数据点找到距离最近的簇
对于每一个簇，计算簇中所有点的均值并将均值作为质心
重复步骤2，直到任意一个点的簇分配结果不变

具体实现

from numpy import *

import matplotlib

import matplotlib.pyplot as plt

def loadDataSet(fileName):      #general function to parse tab -delimited floats

    dataMat = []                #assume last column is target value

    fr = open(fileName)

    for line in fr.readlines():

        curLine = line.strip().split('\t')

        fltLine = map(float,curLine) #map all elements to float()

        dataMat.append(fltLine)

    return dataMat

def distEclud(vecA, vecB):

    return sqrt(sum(power(vecA - vecB, 2))) #la.norm(vecA-vecB)

def randCent(dataSet, k):

    n = shape(dataSet)[1]

    centroids = mat(zeros((k,n)))#create centroid mat

    for j in range(n):#create random cluster centers, within bounds of each dimension

        minJ = min(dataSet[:,j])

        rangeJ = float(max(dataSet[:,j]) - minJ)

        centroids[:,j] = mat(minJ + rangeJ * random.rand(k,1))

    return centroids

def kMeans(dataSet, k, distMeas=distEclud, createCent=randCent):

    m = shape(dataSet)[0]

    clusterAssment = mat(zeros((m,2)))#create mat to assign data points

                                      #to a centroid, also holds SE of each point

    centroids = createCent(dataSet, k)

    clusterChanged = True

    while clusterChanged:

        clusterChanged = False

        for i in range(m):#for each data point assign it to the closest centroid

            minDist = inf; minIndex = -1

            for j in range(k):

                distJI = distMeas(centroids[j,:],dataSet[i,:])

                if distJI < minDist:

                    minDist = distJI; minIndex = j

            if clusterAssment[i,0] != minIndex: clusterChanged = True

            clusterAssment[i,:] = minIndex,minDist**2

        for cent in range(k):#recalculate centroids

            ptsInClust = dataSet[nonzero(clusterAssment[:,0].A==cent)[0]]#get all the point in this cluster

            centroids[cent,:] = mean(ptsInClust, axis=0) #assign centroid to mean

            print ptsInClust

            print mean(ptsInClust, axis=0)

            return

    return centroids, clusterAssment

def clusterClubs(numClust=5):

    datList = []

    for line in open('places.txt').readlines():

        lineArr = line.split('\t')

        datList.append([float(lineArr[4]), float(lineArr[3])])

    datMat = mat(datList)

    myCentroids, clustAssing = biKmeans(datMat, numClust, distMeas=distSLC)

    fig = plt.figure()

    rect=[0.1,0.1,0.8,0.8]

    scatterMarkers=['s', 'o', '^', '8', 'p', \

                    'd', 'v', 'h', '>', '<']

    axprops = dict(xticks=[], yticks=[])

    ax0=fig.add_axes(rect, label='ax0', **axprops)

    imgP = plt.imread('Portland.png')

    ax0.imshow(imgP)

    ax1=fig.add_axes(rect, label='ax1', frameon=False)

    for i in range(numClust):

        ptsInCurrCluster = datMat[nonzero(clustAssing[:,0].A==i)[0],:]

        markerStyle = scatterMarkers[i % len(scatterMarkers)]

        ax1.scatter(ptsInCurrCluster[:,0].flatten().A[0], ptsInCurrCluster[:,1].flatten().A[0], marker=markerStyle, s=90)

    ax1.scatter(myCentroids[:,0].flatten().A[0], myCentroids[:,1].flatten().A[0], marker='+', s=300)

    plt.show()

结果

算法收敛

设目标函数为

$$J(c, \mu) = \sum _{i=1}^m (x_i - \mu_{c_{(i)}})^2$$

Kmeans算法是将J调整到最小，每次调整质心，J值也会减小，同时c和$\mu$也会收敛。由于该函数是一个非凸函数，所以不能保证得到全局最优，智能确保局部最优解。

二分K均值算法

为了克服K均值算法收敛于局部最小值的问题，提出了二分K均值算法。

算法思想

该算法首先将所有点作为一个簇，然后将该簇一分为2，之后选择其中一个簇继续进行划分，划分规则是按照最大化SSE（目标函数）的值。

主要步骤：

将所有点看成一个簇
计算每一个簇的总误差
在给定的簇上进行K均值聚类，计算将簇一分为二的总误差
选择使得误差最小的那个簇进行再次划分
重复步骤2，直到簇的个数满足要求

具体实现

def biKMeans(dataSet, k, distMeans=distEclud):

    m, n = shape(dataSet)

    clusterAssment = mat(zeros((m, 2))) # init all data for index 0

    centroid = mean(dataSet, axis=0).tolist()

    centList = [centroid]

    for i in range(m):

        clusterAssment[i, 1] = distMeans(mat(centroid), dataSet[i, :]) ** 2

    while len(centList) < k:

        lowestSSE = inf

        for i in range(len(centList)):

            cluster = dataSet[nonzero(clusterAssment[:, 0].A == i)[0], :] # get the clust data of i

            centroidMat, splitCluster = kMeans(cluster, 2, distMeans)

            sseSplit = sum(splitCluster[:, 1]) #all sse

            sseNotSplit = sum(clusterAssment[nonzero(clusterAssment[:, 0].A != i)[0], 1]) # error sse

            #print sseSplit, sseNotSplit

            if sseSplit + sseNotSplit < lowestSSE:

                bestCentToSplit = i

                bestNewCent = centroidMat

                bestClust = splitCluster.copy()

                lowerSEE = sseSplit + sseNotSplit

        print bestClust

        bestClust[nonzero(bestClust[:, 0].A == 1)[0], 0] = len(centList)

        bestClust[nonzero(bestClust[:, 0].A == 0)[0], 0] = bestCentToSplit

        print bestClust

        print 'the bestCentToSplit is: ',bestCentToSplit

        print 'the len of bestClustAss is: ', len(bestClust)

        centList[bestCentToSplit] = bestNewCent[0, :].tolist()[0]

        centList.append(bestNewCent[1, :].tolist()[0])

        print clusterAssment

        clusterAssment[nonzero(clusterAssment[:, 0].A == bestCentToSplit)[0], :] = bestClust

        print clusterAssment

    return mat(centList), clusterAssment

结果

K-均值聚类算法的更多相关文章

k均值聚类算法原理和（TensorFlow）实现
顾名思义,k均值聚类是一种对数据进行聚类的技术,即将数据分割成指定数量的几个类,揭示数据的内在性质及规律. 我们知道,在机器学习中,有三种不同的学习模式:监督学习.无监督学习和强化学习: 监督学习,也 ...
K均值聚类算法
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个 ...
机器学习实战---K均值聚类算法
一:一般K均值聚类算法实现 (一)导入数据 import numpy as np import matplotlib.pyplot as plt def loadDataSet(filename): ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
K均值聚类算法的MATLAB实现
1.K-均值聚类法的概述之前在参加数学建模的过程中用到过这种聚类方法,但是当时只是简单知道了在matlab中如何调用工具箱进行聚类,并不是特别清楚它的原理.最近因为在学模式识别,又重新接触了这 ...
聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...
机器学习实战5：k-means聚类：二分k均值聚类+地理位置聚簇实例
k-均值聚类是非监督学习的一种,输入必须指定聚簇中心个数k.k均值是基于相似度的聚类,为没有标签的一簇实例分为一类. 一经典的k-均值聚类思路: 1 随机创建k个质心(k必须指定,二维的很容易确定 ...
机器学习理论与实战（十）K均值聚类和二分K均值聚类
接下来就要说下无监督机器学习方法,所谓无监督机器学习前面也说过,就是没有标签的情况,对样本数据进行聚类分析.关联性分析等.主要包括K均值聚类(K-means clustering)和关联分析,这两大类 ...
机器学习之K均值聚类
聚类的核心概念是相似度或距离,有很多相似度或距离的方法,比如欧式距离.马氏距离.相关系数.余弦定理.层次聚类和K均值聚类等 1. K均值聚类思想 K均值聚类的基本思想是,通过迭代的方法寻找K个 ...
100天搞定机器学习|day44 k均值聚类数学推导与python实现
[如何正确使用「K均值聚类」? 1.k均值聚类模型给定样本,每个样本都是m为特征向量,模型目标是将n个样本分到k个不停的类或簇中,每个样本到其所属类的中心的距离最小,每个样本只能属于一个类.用C表示 ...

随机推荐

1 Maximum Product Subarray_Leetcode
Find the contiguous subarray within an array (containing at least one number) which has the largest ...
js数组操作大全
原文(http://www.cnblogs.com/webhotel/archive/2010/12/21/1912732.html) 用 js有很久了,但都没有深究过js的数组形式.偶尔用用也就是简 ...
《UML大战需求分析》阅读随笔（一）
UML:Unified Modeling Language(统一建模语言) 作为我专业学科里的一门语言,其目的就是交流,同客户交流,同自己交流. 用图像和文字,详细地讲解将要做的工程的需求和功能细节 ...
Day 1 T1
题目描述小南有一套可爱的玩具小人, 它们各有不同的职业. 有一天, 这些玩具小人把小南的眼镜藏了起来. 小南发现玩具小人们围成了一个圈,它们有的面朝圈内,有的面朝圈外.如下图: 这时singer告诉 ...
phpstorm 10注释的双斜线位置不在缩进的位置：
22:07 2016/4/4phpstorm 10注释的双斜线位置不在缩进的位置:终于找到了(但是没有实现效果,不知道是什么原因 win10系统):File | Settings | Editor | ...
第2章新手必须掌握的Linux命令
第2章新手必须掌握的Linux命令章节简述: 本章节讲述系统内核.Bash解释器的关系与作用,教给读者如何正确的执行Linux命令以及常见排错方法. 经验丰富的运维人员可以恰当的组合命令与参数 ...
AMD与CMD（转载）
JavaSript模块化在了解AMD,CMD规范前,还是需要先来简单地了解下什么是模块化,模块化开发? 模块化是指在解决某一个复杂问题或者一系列的杂糅问题时,依照一种分类的思维把问题 ...
PHP图形操作之生成图像验证码
简单的验证码其实就是在图片中输出了几个字符,通过imagestring函数就能实现. 但是在处理上,为了使验证码更加的安全,防止其他程序自动识别,因此常常需要对验证码进行一些干扰处理,通常会采用绘制一 ...
IOS UIAlertController 使用方法
在很多种语言中,alert都表示弹窗操作,弹窗功能非常有用,不仅可以用于正式的app功能中,也可以在调试中使用.在OC中,UIAlertController类用来控制弹窗操作.在IOS 8.0之前, ...
【转】最大流EK算法
转自:http://www.cnblogs.com/kuangbin/archive/2011/07/26/2117636.html 图-1 如图-1所示,在这个运输网络中,源点S和汇点T分别是1,7 ...

K-均值聚类算法

K-均值聚类算法

K-均值算法

算法思想

具体实现

结果

算法收敛

二分K均值算法

算法思想

具体实现

结果

K-均值聚类算法的更多相关文章

随机推荐

热门专题