python实现K聚类算法

参考：《机器学习实战》- Machine Learning in Action

一、基本思想

聚类是一种无监督的学习，它将相似的对象归到同一簇中。它有点像全自动分类。聚类方法几乎可以应用于所有对象，簇内的对象越相似，聚类的效果越好。之所以称作K-均值，是因为它可以发现k个不同的簇，且每个簇的中心采用簇中所含值的均值计算而成。

K-均值算法的工作流程是这样的。首先，随机确定k个初始点作为质心。然后将数据集中的每个点分配到一个簇中，具体来讲，为每个点找距离其最近的质心，并将其分配给该质心所对应的簇。这一步完成后，每个簇的质心更新为该簇所有点的平均值。

伪代码如下：

创建k个点作为起始质心(经常是随机选择)

当任意一个点的簇分配结果发生改变时

    对数据集中的每个数据点

        对每个质心

            计算质心与数据点之间的距离

        将数据点分配到距离其最近的簇

    对每个簇，计算簇中所有点的均值并将均值作为质心

二、代码

# -*- coding:utf8 -*-

from numpy import * 

def loadDataSet(fileName):

	dataMat = []

	fr = open(fileName)

	for line in fr.readlines():

		curLine = line.strip().split('\t')

		fltLine = map(float, curLine)

		dataMat.append(fltLine)

	return dataMat

def distEclud(vecA, vecB):

	return sqrt(sum(power(vecA - vecB, 2)))

# 获得k个随机质心的集合

def randCent(dataSet, k):

	n = shape(dataSet)[1]

	centroids = mat(zeros((k,n)))

	for j in range(n):

		minJ = min(dataSet[:,j])

		rangeJ = float(max(dataSet[:,j]) - minJ)

		centroids[:,j] = minJ + rangeJ * random.rand(k,1)

	return centroids

def kMeans(dataSet, k, distMeans=distEclud, createCent=randCent):

	m = shape(dataSet)[0]

	clusterAssment = mat(zeros((m,2)))

	centroids = createCent(dataSet, k)

	clusterChanged = True

	while clusterChanged:

		clusterChanged = False

		for i in range(m):

			minDist = inf

			minIndex = -1

			for j in range(k):

				distJI = distMeans(centroids[j,:], dataSet[i,:])

				if distJI < minDist:

					minDist = distJI

					minIndex = j

			if clusterAssment[i,0] != minIndex:

				clusterChanged = True

			clusterAssment[i,0] = minIndex, minDist**2

		print centroids

		for cent in range(k):

			ptsInClust = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]

			centroids[cent,:] = mean(ptsInClust, axis=0)

	return centroids, clusterAssment

if __name__ == "__main__":

	pass

python实现K聚类算法的更多相关文章

Python实现 K_Means聚类算法
使用 Python实现 K_Means聚类算法: 问题定义 聚类问题是数据挖掘的基本问题,它的本质是将n个数据对象划分为 k个聚类,以便使得所获得的聚类满足以下条件: 同一聚类中的数据对象相似度较高 ...
机器学习 Python实践-K近邻算法
机器学习K近邻算法的实现主要是参考<机器学习实战>这本书. 一.K近邻(KNN)算法 K最近邻(k-Nearest Neighbour,KNN)分类算法,理解的思路是:如果一个样本在特征空 ...
Python 实现分层聚类算法
''' 1.将所有样本都看作各自一类 2.定义类间距离计算公式 3.选择距离最小的一堆元素合并成一个新的类 4.重新计算各类之间的距离并重复上面的步骤 5.直到所有的原始元素划分成指定数量的类程序要 ...
Python实现DBSCAN聚类算法（简单样例测试）
发现高密度的核心样品并从中膨胀团簇. Python代码如下: # -*- coding: utf-8 -*- """ Demo of DBSCAN clustering ...
用python实现k近邻算法
用python写程序真的好舒服. code: import numpy as np def read_data(filename): '''读取文本数据,格式:特征1 特征2 -- 类别''' f=o ...
python 聚类分析 k均值算法
dataSet = [ #数据集 # 1 [0.697, 0.460], # 2 [0.774, 0.376], # 3 [0.634, 0.264], # 4 [0.608, 0.318], # 5 ...
聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用
1.用python实现K均值算法 import numpy as np x = np.random.randint(1,100,20)#产生的20个一到一百的随机整数 y = np.zeros(20) ...
【机器学习】K均值算法（II）
k聚类算法中如何选择初始化聚类中心所在的位置. 在选择聚类中心时候,如果选择初始化位置不合适,可能不能得出我们想要的局部最优解. 而是会出现一下情况: 为了解决这个问题,我们通常的做法是: 我们选取K ...
Python聚类算法之基本K均值实例详解
Python聚类算法之基本K均值实例详解本文实例讲述了Python聚类算法之基本K均值运算技巧.分享给大家供大家参考,具体如下: 基本K均值 :选择 K 个初始质心,其中 K 是用户指定的参数,即所 ...

随机推荐

java中垃圾回收机制和引用类型
在java中JDK1.2版本以后,对象的引用类型分为四种,从高到低依次为:强引用.软引用.弱引用.虚引用. ①强引用的特点:垃圾回收机制绝不会回收它,即使内存不足时,JVM宁愿抛出OutOfMemor ...
java线程安全问题以及使用synchronized解决线程安全问题的几种方式
一.线程安全问题 1.产生原因我们使用java多线程的时候,最让我们头疼的莫过于多线程引起的线程安全问题,那么线程安全问题到底是如何产生的呢?究其本质,是因为多条线程操作同一数据的过程中,破坏了数据 ...
[Luogu2852][USACO06DEC]牛奶模式Milk Patterns
Luogu 一句话题意给出一个串,求至少出现了\(K\)次的子串的最长长度. sol 对这个串求后缀数组. 二分最长长度. 如果有\(K\)个不同后缀他们两两的\(lcp\)都\(>=mid\ ...
Web前端有价值的博客文章汇总
一.HTML 二.CSS 1.深入理解position和z-index属性 :https://www.cnblogs.com/zhuzhenwei918/p/6112034.html 2.BFC(清除 ...
uwsgi服务启动(start)停止(stop)重新装载(reload)
1. 添加uwsgi相关文件在之前的文章跟讲到过centos中搭建nginx+uwsgi+flask运行环境,本节就基于那一次的配置进行说明. 在www中创建uwsgi文件夹,用来存放uwsgi相关 ...
深入理解JVM垃圾收集机制(JDK1.8)
垃圾收集算法标记-清除算法最基础的收集算法是"标记-清除"(Mark-Sweep)算法,分两个阶段:首先标记出所有需要回收的对象,在标记完成后统一回收所有被标记的对象. 不足: ...
与JavaWeb有关的故事（web请求与Java I／O）
作为一名后端屌丝程序员,对算法.并发.性能乐此不疲.但是,随着年龄和阅历的增加,显然叶落而不知秋的心态是不太能混了.尤其是,某T面试官在明知我是后端,且明确表示对HTTP协议不太熟的情况下,强行让我解 ...
《深入理解Bootstrap》读书笔记（一）
栅格系统实现原理通过定义容器大小,平分12份,再调整内外边距,最后结合媒体查询. 通过一系列包含内容的行和列来创建页面布局.下面列出了 Bootstrap 栅格系统是如何工作的: 1.行必须放置在 ...
筛法求素数Java
输出:一个集合S,表示1~n以内所有的素数 import java.util.Scanner; public class 筛法求素数 { public static void main(String[ ...
iOS加密算法总结
常用加密算法: DES:Data Encryption Standard,即数据加密算法,它是IBM公司于1975年研究成功并公开发表的. DES(数据加密标准)原理: DES是一个分组加密算法,它以 ...

python实现K聚类算法

一、 基本思想

二、 代码

python实现K聚类算法的更多相关文章

随机推荐

热门专题

一、基本思想

二、代码