肘部法则–Elbow Method

我们知道k-means是以最小化样本与质点平方误差作为目标函数,将每个簇的质点与簇内样本点的平方距离误差和称为畸变程度(distortions),那么,对于一个簇,它的畸变程度越低,代表簇内成员越紧密,畸变程度越高,代表簇内结构越松散。 畸变程度会随着类别的增加而降低,但对于有一定区分度的数据,在达到某个临界点时畸变程度会得到极大改善,之后缓慢下降,这个临界点就可以考虑为聚类性能较好的点。

  1. import pandas as pd
  2. from sklearn.cluster import KMeans
  3. import matplotlib.pyplot as plt
  4.  
  5. df_features = pd.read_csv(r'11111111.csv',encoding='gbk') # 读入数据
  6. #print(df_features)
  7. '利用SSE选择k'
  8. SSE = [] # 存放每次结果的误差平方和
  9. for k in range(1,9):
  10. estimator = KMeans(n_clusters=k) # 构造聚类器
  11. estimator.fit(df_features[['','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','','']])
  12. SSE.append(estimator.inertia_) # estimator.inertia_获取聚类准则的总和
  13. X = range(1,9)
  14. plt.xlabel('k')
  15. plt.ylabel('SSE')
  16. plt.plot(X,SSE,'o-')
  17. plt.show()

如上图所示,在k=xxxxxx时,畸变程度(y值)得到大幅改善,可以考虑选取k=xxxxx作为聚类数量 显然,肘部对于的k值为xxxxxx(曲率最高),故对于这个数据集的聚类而言,最佳聚类数应该选xxxxxxxx。

轮廓系数–Silhouette Coefficient

对于一个聚类任务,我们希望得到的簇中,簇内尽量紧密,簇间尽量远离,轮廓系数便是类的密集与分散程度的评价指标,公式表达如下: s=b−amax(a,b)s=b−amax(a,b) 其中a代表同簇样本到彼此间距离的均值,b代表样本到除自身所在簇外的最近簇的样本的均值,s取值在[-1, 1]之间。 如果s接近1,代表样本所在簇合理,若s接近-1代表s更应该分到其他簇中。

判断: 轮廓系数范围在[-1,1]之间。该值越大,越合理。 si接近1,则说明样本i聚类合理; si接近-1,则说明样本i更应该分类到另外的簇; 若si 近似为0,则说明样本i在两个簇的边界上。 所有样本的s i 的均值称为聚类结果的轮廓系数,是该聚类是否合理、有效的度量。 使用轮廓系数(silhouette coefficient)来确定,选择使系数较大所对应的k值

sklearn.metrics.silhouette_score sklearn中有对应的求轮廓系数的API

  1. import numpy as np
  2. from sklearn.cluster import KMeans
  3. from pylab import *
  4. import codecs
  5. import matplotlib.pyplot as plt
  6. from sklearn.metrics import calinski_harabaz_score
  7. import pandas as pd
  8. from numpy.random import random
  9. from sklearn import preprocessing
  10. from sklearn import metrics
  11. import operator
  12.  
  13. data = []
  14. labels = []
  15. number1=10
  16. with codecs.open("red_nopca_nolabel.txt", "r") as f:
  17. for line in f.readlines():
  18. line1=line.strip()
  19. line2 = line1.split(',')
  20. x2 = []
  21. for i in range(0,number1):
  22. x1=line2[i]
  23. x2.append(float(x1))
  24. data.append(x2)
  25. x2 = []
  26. #label = line2[number1-1]
  27. #labels.append(float(label))
  28. datas = np.array(data)
  29. '''
  30. kmeans_model = KMeans(n_clusters=3, random_state=1).fit(datas)
  31. labels = kmeans_model.labels_
  32. a = metrics.silhouette_score(datas, labels, metric='euclidean')
  33. print(a)
  34. '''
  35. silhouette_all=[]
  36.  
  37. for k in range(2,25):
  38. kmeans_model = KMeans(n_clusters=k, random_state=1).fit(datas)
  39. labels = kmeans_model.labels_
  40. a = metrics.silhouette_score(datas, labels, metric='euclidean')
  41. silhouette_all.append(a)
  42. #print(a)
  43. print('这个是k={}次时的轮廓系数:'.format(k),a)
  44.  
  45. dic={} #存放所有的互信息的键值对
  46. mi_num=2
  47. for i in silhouette_all:
  48. dic['k={}时轮廓系数'.format(mi_num)]='{}'.format(i)
  49. mi_num=mi_num+1
  50. #print(dic)
  51. rankdata=sorted(dic.items(),key=operator.itemgetter(1),reverse=True)
  52. print(rankdata)

实验结果部分插图

如何选择kmeans中的k值——肘部法则–Elbow Method和轮廓系数–Silhouette Coefficient的更多相关文章

  1. K-means中的K值选择

    关于如何选择Kmeans等聚类算法中的聚类中心个数,主要有以下方法(译自维基): 1. 最简单的方法:K≍sqrt(N/2) 2. 拐点法:把聚类结果的F-test值(类间Variance和全局Var ...

  2. 如何选择K-Means中K的值

    K-Means需要设定一个簇心个数的参数,现实中,最常用于确定K数的方法, 其实还是人手工设定.例如,当我们决定将衣服做成几个码的时候,其实就是在以 人的衣服的长和宽为为特征进行聚类.所以,弄清楚我们 ...

  3. 理解KNN算法中的k值-knn算法中的k到底指的是什么 ?

    2019-11-09 20:11:26为方便自己收藏学习,转载博文from:https://blog.csdn.net/llhwx/article/details/102652798 knn算法是指对 ...

  4. 使用肘部法确定k-means均值的k值

    import numpy as np from sklearn.cluster import KMeans from scipy.spatial.distance import cdist impor ...

  5. Kmeans算法的K值和聚类中心的确定

    0 K-means算法简介 K-means是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一. K-means算法的基本思想是:以空间中k个点为中心进行聚类,对最靠近他们的对象归类.通过迭代的 ...

  6. 选择问题(选择数组中第K小的数)

    由排序问题可以引申出选择问题,选择问题就是选择并返回数组中第k小的数,如果把数组全部排好序,在返回第k小的数,也能正确返回,但是这无疑做了很多无用功,由上篇博客中提到的快速排序,稍稍修改下就可以以较小 ...

  7. 数学建模及机器学习算法(一):聚类-kmeans(Python及MATLAB实现,包括k值选取与聚类效果评估)

    一.聚类的概念 聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好.我们事先并不知道数据的正确结果(类标),通过聚类算法来发现和挖掘数据本身的结 ...

  8. 机器学习方法(七):Kmeans聚类K值如何选,以及数据重抽样方法Bootstrapping

    欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld. 技术交流QQ群:433250724,欢迎对算法.技术感兴趣的同学加入.我的博客写一些自己用得到东西,并分享给 ...

  9. kmeans 聚类 k 值优化

    kmeans 中k值一直是个令人头疼的问题,这里提出几种优化策略. 手肘法 核心思想 1. 肉眼评价聚类好坏是看每类样本是否紧凑,称之为聚合程度: 2. 类别数越大,样本划分越精细,聚合程度越高,当类 ...

随机推荐

  1. Js中没有方法的重载

    <script type="text/javascript"> //方法名相同,后面的方法覆盖了前面的方法.后面的方法需要一个name,但没给传值,所以是undefin ...

  2. Linux 内核kobject 缺省属性

    当被创建时, 每个 kobject 被给定一套缺省属性. 这些属性通过 kobj_type 结构来指定. 这个结构, 记住, 看来如此: struct kobj_type { void (*relea ...

  3. dotnet core 输出调试信息到 DebugView 软件

    本文告诉大家如何在 dotnet core 输出调试信息到 DebugView 软件 在之前告诉小伙伴,如何在 WPF 输出调试信息到 DebugView 软件,请看文章 WPF 调试 获得追踪输出 ...

  4. 如何用python“优雅的”调用有道翻译?

    前言 其实在以前就盯上有道翻译了的,但是由于时间问题一直没有研究(我的骚操作还在后面,记得关注),本文主要讲解如何用python调用有道翻译,讲解这个爬虫与有道翻译的js“斗争”的过程! 当然,本文仅 ...

  5. 一个简单的Web服务器-支持Servlet请求

    上接 一个简单的Web服务器-支持静态资源请求,这个服务器可以处理静态资源的请求,那么如何处理Servlet请求的呢? 判断是否是Servlet请求 首先Web服务器需要判断当前请求是否是Servle ...

  6. 数据预处理以及探索性分析(EDA)

    1.根据某个列进行groupby,判断是否存在重复列. # Count the unique variables (if we got different weight values, # for e ...

  7. Vue通讯

    vue组件通讯 #props传递数据 父->子 //父组件传递数据 <template> <Children :data="msg"></Chi ...

  8. b方式操作文件

    f=open('test11.py','rb',encoding='utf-8') #b的方式不能指定编码 f=open('test11.py','rb') #b的方式不能指定编码 data=f.re ...

  9. python写冒泡排序

    冒泡就是重复地遍历要排序的数列,一次比较两个元素(泡泡),如果他们的顺序错误就把他们交换过来,像泡泡一样,依次按照顺序上升排列. 冒泡排序算法的运作如下: 比较相邻的元素.如果第一个比第二个大(升序) ...

  10. tomcat启动慢问题

    sed -i 's/securerandom\.source\=file\:\/dev\/random/securerandom\.source\=file\:\/dev\/urandom/g' $J ...