K-means聚类分析

一、原理

先确定簇的个数，K
假设每个簇都有一个中心点 centroid
将每个样本点划分到距离它最近的中心点所属的簇中

选择K个点做为初始的中心点

while（）

{

      将所有点分配个K个中心点形成K个簇

      重新计算每个簇的中心点

      if（簇的中心点不再改变）

break；

}

目标函数：定义为每个样本与其簇中心点的距离的平方和（theSum of Squared Error, SSE）

　　– μk 表示簇Ck 的中心点（或其它能代表Ck的点）

　　– 若xn被划分到簇Ck则rnk=1，否则rnk= 0

• 目标：找到簇的中心点μk及簇的划分rnk使得目标函数SSE最小

初始中心点通常是随机选取的（收敛后得到的是局部最优解）

不同的中心点会对聚类结果产生不同的影响：

1、

2、

此时你一定会有疑问：如何选取"较好的"初始中心点？

凭经验选取代表点
将全部数据随机分成c类，计算每类重心座位初始点
用“密度”法选择代表点
将样本随机排序后使用前c个点作为代表点
从(c-1)聚类划分问题的解中产生c聚类划分问题的代表点

　　　　结论：若对数据不够了解，可以直接选择2和4方法

需要预先确定K

　　　Q：如何选取K

　　SSE一般随着K的增大而减小

A：emmm你多尝试几次吧，看看哪个合适。斜率改变最大的点比如k=2

总结：

简单的来说，K-means就是假设有K个簇，然后通过上面找初始点的方法，找到K个初始点，将所有的数据分为K个簇，然后一直迭代，在所有的簇里面找到找到簇的中心点μk及簇的划分rnk使得目标函数SSE最小或者中心点不变之后，迭代完成。成功把数据分为K类。

预告：下一篇博文讲K-means代码实现

K-means聚类分析的更多相关文章

SPSS聚类分析：K均值聚类分析
SPSS聚类分析:K均值聚类分析一.概念:(分析-分类-K均值聚类) 1.此过程使用可以处理大量个案的算法,根据选定的特征尝试对相对均一的个案组进行标识.不过,该算法要求您指定聚类的个数.如果知道, ...
KNN 与 K - Means 算法比较
KNN K-Means 1.分类算法聚类算法 2.监督学习非监督学习 3.数据类型:喂给它的数据集是带label的数据,已经是完全正确的数据喂给它的数据集是无label的数据,是杂乱无章的,经过 ...
软件——机器学习与Python，聚类，K——means
K-means是一种聚类算法: 这里运用k-means进行31个城市的分类城市的数据保存在city.txt文件中,内容如下: BJ,2959.19,730.79,749.41,513.34,467. ...
R 语言实战-Part 5-1笔记
R 语言实战(第二版) part 5-1 技能拓展 ----------第19章使用ggplot2进行高级绘图------------------------- #R的四种图形系统: #①base: ...
Python使用RMF聚类分析客户价值
投资机构或电商企业等积累的客户交易数据繁杂.需要根据用户的以往消费记录分析出不同用户群体的特征与价值,再针对不同群体提供不同的营销策略. 用户分析指标根据美国数据库营销研究所Arthur Hughe ...
快速查找无序数组中的第K大数？
1.题目分析: 查找无序数组中的第K大数,直观感觉便是先排好序再找到下标为K-1的元素,时间复杂度O(NlgN).在此,我们想探索是否存在时间复杂度 < O(NlgN),而且近似等于O(N)的高 ...
SPSS与聚类分析
1.进行K均值聚类分析时需要线标准化处理,抛弃量纲差异,比如说数值型变量有的以千记有的以百分数记.2.层次聚类就是先把每个样本都看成一个独立的类:聚类特征(Clustering Feature, CF ...
网络费用流-最小k路径覆盖
多校联赛第一场(hdu4862) Jump Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Ot ...
numpy.ones_like(a, dtype=None, order='K', subok=True)返回和原矩阵一样形状的1矩阵
Return an array of ones with the same shape and type as a given array. Parameters: a : array_like Th ...
R数据挖掘第一篇：聚类分析（划分）
聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类.在相同的数据集上, ...

随机推荐

我去，你竟然还不会用 synchronized
二哥,离你上一篇我去已经过去两周时间了,这个系列还不打算更新吗?着急着看呢. 以上是读者 Jason 发来的一条信息,不看不知道,一看真的是吓一跳,上次我去是 4 月 3 号更新的,离现在一个多月了, ...
[vijos P1008 篝火晚会]置换
题意:编号1-n的小朋友依次围成一圈,给定目标状态每个小朋友左右两边的小朋友编号,每次可以选择编号为[b1,b2,...,bm]的小朋友,作1次轮换,bi是任意编号,代价为m.求变成目标状态所需的最小 ...
[hdu5389 Zero Escape]数根的性质，DP
题意:把n个数(1-9)放到A集合和B集合里面去,使得A集合里面的数的数根为a,B集合里面的数的数根为b,也可以只放在A或B任一个集合里面.求方法总数.比如A={2,4,5},则A的数根为[2+4+5 ...
HDU 2017 （水）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=2017 题目大意:给你段字符串,求出字符串中含有数字字符的个数解题思路: 字符串输入输出的基本应用:h ...
基于 abp vNext 和 .NET Core 开发博客项目 - 给项目瘦身，让它跑起来
上一篇文章(https://www.cnblogs.com/meowv/p/12896177.html)已经成功创建了博客项目,但是abp默认给我们引用了许多项目中用不到的组件. 本篇文章将给项目进行 ...
pytest——pycharm中右击运行（run）没有问题，在terminal中运行pytest报错：E ModuleNotFoundError: No module named
参考了这个解决办法:https://blog.csdn.net/qq_36829091/article/details/82180866 我的是Windows,linux的和Windows的解决办法有 ...
「雕爷学编程」Arduino动手做（12）——霍尔磁力模块
37款传感器和模块的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止37种的.鉴于本人手头积累了一些传感器与模块,依照实践出真知(动手试试)的理念,以学习和交流为目的,这里准备 ...
MYSQL LOCK IN SHARE MODE&FOR UPDATE
SELECT ... LOCK IN SHARE MODE sets a shared mode lock on the rows read. A shared mode lock enables o ...
接上一篇:vue零基础入门记录
上一篇的vue项目已经搭建运行了起来,我用惯了idea这里也用的idea打开的项目.貌似其他软件写前端更好. 打开项目的项目路径是这样的写惯了后台,第一眼看的时候感觉这个项目路径很乱,后面才知道我们 ...
王艳 201771010127《面向对象程序设计（java）》第九周学习总结
实验九异常.断言与日志实验时间 2018-10-25 1.实验目的与要求 (1) 掌握java异常处理技术: (2) 了解断言的用法: (3) 了解日志的用途: (4) 掌握程序基础调试技巧: 一 ...

K-means聚类分析

K-means聚类分析的更多相关文章

随机推荐

热门专题