1、介绍

k-means算法以k为参数（所期望的簇的个数），把n个对象分成k个簇（单层划分），用质心（数据点的平均值）定义簇的原型。使得簇内具有较高的相似度，而簇间的相似度较低。

通过聚类，我们能够发现数据对象之间的关系。簇内的相似度越高，簇间的相似度越低，聚类效果越好。

2、过程

①随机选择k个点作为初始的聚类中心。

②对于剩下的点，根据其与聚类中心的距离，将其归入最近的簇，形成k个簇。

③对每个簇，计算所有点的均值作为新的聚类中心。

④重复②、③，直到聚类中心不再改变。

3、缺点

①可能收敛于局部最小值，在大规模数据中收敛较慢。

②k值需要预先给定，属于先验知识。

③对初始选取的聚类中心敏感。这会导致①。

④并不适合所有的数据类型，比如不能处理非球形簇。

⑤对含离群点的数据处理时存在问题。

为了克服k-means收敛于局部最小值的问题，可以采用二分k-means(bisecting K-means).

4、优化方法

1、bisecting K-means

①将所有样本看成一个簇。

②当簇小于k时，对于每个簇i，计算总误差，在簇i上进行2-means聚类，再计算该簇划分为两个簇后的总误差，选择误差最小的簇进行划分。

聚类之k-means的更多相关文章

软件——机器学习与Python，聚类，K——means
K-means是一种聚类算法: 这里运用k-means进行31个城市的分类城市的数据保存在city.txt文件中,内容如下: BJ,2959.19,730.79,749.41,513.34,467. ...
ML: 聚类算法-K均值聚类
基于划分方法聚类算法R包: K-均值聚类(K-means) stats::kmeans().fpc::kmeansruns() K-中心点聚类(K-Medoids) ...
聚类算法:K均值、凝聚层次聚类和DBSCAN
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
常见聚类算法——K均值、凝聚层次聚类和DBSCAN比较
聚类分析就仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组(簇).其目标是,组内的对象相互之间是相似的,而不同组中的对象是不同的.组内相似性越大,组间差别越大,聚类就越好. 先介绍下聚类的不 ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
【机器学习】聚类算法——K均值算法（k-means）
一.聚类 1.基于划分的聚类:k-means.k-medoids(每个类别找一个样本来代表).Clarans 2.基于层次的聚类:(1)自底向上的凝聚方法,比如Agnes (2)自上而下的分裂方法,比 ...
聚类之K均值聚类和EM算法
这篇博客整理K均值聚类的内容,包括: 1.K均值聚类的原理: 2.初始类中心的选择和类别数K的确定: 3.K均值聚类和EM算法.高斯混合模型的关系. 一.K均值聚类的原理 K均值聚类(K-means) ...
基于改进人工蜂群算法的K均值聚类算法（附MATLAB版源代码）
其实一直以来也没有准备在园子里发这样的文章,相对来说,算法改进放在园子里还是会稍稍显得格格不入.但是最近邮箱收到的几封邮件让我觉得有必要通过我的博客把过去做过的东西分享出去更给更多需要的人.从论文刊登 ...
【转】算法杂货铺——k均值聚类(K-means)
k均值聚类(K-means) 4.1.摘要在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时 ...
5-Spark高级数据分析-第五章基于K均值聚类的网络流量异常检测
据我们所知,有‘已知的已知’,有些事,我们知道我们知道:我们也知道,有 ‘已知的未知’,也就是说,有些事,我们现在知道我们不知道.但是,同样存在‘不知的不知’——有些事,我们不知道我们不知道. 上一章 ...

随机推荐

【BZOJ】1679: [Usaco2005 Jan]Moo Volume 牛的呼声（数学）
http://www.lydsy.com/JudgeOnline/problem.php?id=1679 水题没啥好说的..自己用笔画画就懂了将点排序,然后每一次的点到后边点的声音距离和==(n-i ...
【BZOJ】1617: [Usaco2008 Mar]River Crossing渡河问题（dp）
http://www.lydsy.com/JudgeOnline/problem.php?id=1617 裸dp,很好做. 设f[i]表示i头牛到对岸所需最小时间.sum[i]表示运i头牛到对岸的时间 ...
【BZOJ】1662: [Usaco2006 Nov]Round Numbers 圆环数（数位dp）
http://www.lydsy.com/JudgeOnline/problem.php?id=1662 这道题折腾了我两天啊-!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! 果然 ...
uva624 CD （01背包+路径的输出）
CD Time Limit:3000MS Memory Limit:0KB 64bit IO Format:%lld & %llu Submit Status Practice UVA 624 ...
LR的响应时间与使用IE所感受时间不一致的讨论（摘抄补充）
http://www.51testing.com/html/33/564333-865629.html 在做性能测试时,有时碰到这样一种情况,使用性能工具LR测试出来的响应时间比实际使用IE感受到的时 ...
connect() failed (111: Connection refused) while connecting to upstream, cli
php-fpm没有运行执行如下命令查看是否启动了php-fpm,如果没有则启动你的php-fpm即可 netstat -ant | grep 9000 没有运行为空,有运行显示 tcp 0 0 12 ...
Oracle自定义聚集函数
今天工作中看见别人写的自定义聚集函数,所以一门心思的想搞懂,就在网上找资料了. 自定义聚集函数自定义聚集函数接口简介 Oracle提供了很多预定义好的聚集函数,比如Max(), Sum(), AVG ...
Popwindow系列
一系列干货等你来拿关于我:http://www.cnblogs.com/dubo-/ 项目中也有很多实用的事例,等待录入中...
【BZOJ4872】[Shoi2017]分手是祝愿数学+期望DP
[BZOJ4872][Shoi2017]分手是祝愿 Description Zeit und Raum trennen dich und mich. 时空将你我分开.B 君在玩一个游戏,这个游戏由 n ...
vue mixins的使用
官网传送刚开始接触vue的时候,官网关于mixins的例子看了好几遍,发现还是不会用,包括vuex也是后来慢慢理解一点的,不过和vuex比起来.mixns还是很好理解,简单很多了就我目前理解mix ...

聚类之k-means