sklearn中的指标都在sklearn.metric包下，与聚类相关的指标都在sklearn.metric.cluster包下，聚类相关的指标分为两类：有监督指标和无监督指标，这两类指标分别在sklearn.metric.cluster.supervised和sklearn.metric.cluster.unsupervised包下。聚类指标大部分都是有监督指标，无监督指标较少。

无监督指标和有监督指标应该充分配合起来：无监督指标很好，有监督指标很差，表明这个问题可能不是单靠聚类就能解决的；无监督指标很差，有监督指标很好，表明有监督指标很可能是不靠谱的，数据标注有问题。

sklearn.metric.cluster.__init__.py把所有的聚类指标都引入进来了。

实际上，sklearn.metric包把cluster下的指标全部引进来了，所以可以直接使用sklearn.metric而不必关心sklearn.metric.cluster.

from .supervised import adjusted_mutual_info_score

from .supervised import normalized_mutual_info_score

from .supervised import adjusted_rand_score

from .supervised import completeness_score

from .supervised import contingency_matrix

from .supervised import expected_mutual_information

from .supervised import homogeneity_completeness_v_measure

from .supervised import homogeneity_score

from .supervised import mutual_info_score

from .supervised import v_measure_score

from .supervised import fowlkes_mallows_score

from .supervised import entropy

from .unsupervised import silhouette_samples

from .unsupervised import silhouette_score

from .unsupervised import calinski_harabaz_score

from .bicluster import consensus_score

预备知识

在了解这些聚类指标前，需要一些预备知识才能读懂代码。

COO

稀疏矩阵的一种格式，保存行、列、数三项。

contingency_matrix共现矩阵

from sklearn import metrics

from sklearn.metrics.cluster.supervised import contingency_matrix

labels_true = np.array([0, 2, 2, 3, 2, 1])

labels_pred = np.array([0, 2, 2, 2, 1, 2])

contingency = contingency_matrix(labels_true, labels_pred, sparse=True)

输出为

[[1 0 0]

[0 0 1]

[0 1 2]

[0 0 1]]

共现矩阵行数等于实际类别数，列数等于聚类个数，第i行第j列的值表示实际类别为i的元素有多少个被当做聚类类别为j。

AdjustedRandIndex调整兰德系数

调整之意是：$score=\frac{x-E(x)}{max(x)-E(x)}$

兰德系数是一种指标，互信息是一种指标，经过调整得到调整兰德系数和调整互信息两种指标。

调整的意义在于：对于随机聚类，分值应该尽量低。

import numpy as np

from scipy.misc import comb

from sklearn import metrics

from sklearn.metrics.cluster.supervised import contingency_matrix

labels_true = np.array([0, 2, 2, 3, 2, 1])

labels_pred = np.array([0, 2, 2, 2, 1, 2])

score = metrics.cluster.adjusted_rand_score(labels_true, labels_pred)

print(score)

n_samples = labels_true.shape[0]

n_classes = np.unique(labels_true).shape[0]

n_clusters = np.unique(labels_pred).shape[0]

contingency = contingency_matrix(labels_true, labels_pred, sparse=True)

print(contingency.todense())

sum_comb_c = sum(comb(n_c, 2) for n_c in np.ravel(contingency.sum(axis=1)))

sum_comb_k = sum(comb(n_k, 2) for n_k in np.ravel(contingency.sum(axis=0)))

sum_comb = sum(comb(n_ij, 2) for n_ij in contingency.data)

prod_comb = (sum_comb_c * sum_comb_k) / comb(n_samples, 2)

mean_comb = (sum_comb_k + sum_comb_c) / 2.

score = (sum_comb - prod_comb) / (mean_comb - prod_comb)

print(score)

silhouette_score

silhouette_score是一种无监督聚类指标。

$$silhouette_sample_score=\frac{b-a}{max(a,b)}$$

a表示样本的最小类内距离，b表示样本的最小类间距离。

silhouette_samples函数用于计算每个样本的silhouette分值，silhouette_score就是各个样本分值的平均值。

参考资料

https://blog.csdn.net/howhigh/article/details/73928635

sklearn官方文档

sklearn聚类评价指标的更多相关文章

sklearn聚类模型：基于密度的DBSCAN；基于混合高斯模型的GMM
1 sklearn聚类方法详解 2 对比不同聚类算法在不同数据集上的表现 3 用scikit-learn学习K-Means聚类 4 用scikit-learn学习DBSCAN聚类 (基于密度的聚类) ...
学习sklearn聚类使用
学习利用sklearn的几个聚类方法: 一.几种聚类方法 1.高斯混合聚类(mixture of gaussians) 2.k均值聚类(kmeans) 3.密度聚类,均值漂移(mean shift) ...
机器学习之sklearn——聚类
生成数据集方法:sklearn.datasets.make_blobs(n_samples,n_featurs,centers)可以生成数据集,n_samples表示个数,n_features表示特征 ...
Python数模笔记-Sklearn（2）样本聚类分析
1.分类的分类分类的分类?没错,分类也有不同的种类,而且在数学建模.机器学习领域常常被混淆. 首先我们谈谈有监督学习(Supervised learning)和无监督学习(Unsupervised ...
聚类结果的评估指标及其JAVA实现
一. 前言又GET了一项技能.在做聚类算法的时候,由于要评估所提出的聚类算法的好坏,于是需要与一些已知的算法对比,或者用一些人工标注的标签来比较,于是用到了聚类结果的评估指标.我了解了以下几项. 首 ...
Alink漫谈(二十二) ：源码分析之聚类评估
Alink漫谈(二十二) :源码分析之聚类评估目录 Alink漫谈(二十二) :源码分析之聚类评估 0x00 摘要 0x01 背景概念 1.1 什么是聚类 1.2 聚类分析的方法 1.3 聚类评估 ...
waiting list
Problem: how to cluster non-stationary multivariate time series. What are stationary time series How ...
sklearn：聚类clustering
http://blog.csdn.net/pipisorry/article/details/53185758 不同聚类效果比较 sklearn不同聚类示例比较 A comparison of the ...
第八次作业：聚类--K均值算法：自主实现与sklearn.cluster.KMeans调用
import numpy as np x = np.random.randint(1,100,[20,1]) y = np.zeros(20) k = 3 def initcenter(x,k): r ...

随机推荐

接口八问 & 接口测试质量评估标准
接口八问关于接口的具体信息,可以通过以下八个问题进行了解: 接口的请求地址? 接口的作用? 接口的请求方式? 接口是否是用户相关? 接口是否存在上送数据,上送数据是什么? 接口返回的报文头和编码? ...
socket服务
1.socket_server import socket import threading server = socket.socket(socket.AF_INET, socket.SOCK_ST ...
项目：git+gitlab+jenkins+ansible上线网站
项目需求 1. 在gitlab中创建一个项目 nginxinstall2. 编写playbook,实现一键部署nginx.部署一个静态测试页.测试部署结果要求: 部署nginx 端口:83 运行身份: ...
Linux性能优化实战学习笔记：第十二讲
一.性能优化方法论不可中断进程案例二.怎么评估性能优化的效果? 1.评估思路 2.几个为什么 1.为什么要选择不同维度的指标? 应用程序和系统资源是相辅相成的关系 2.性能优化的最终目的和结果? ...
Linux性能优化实战学习笔记：第十七讲
一.缓存命中率 1.引子 1.我们想利用缓存来提升程序的运行效率,应该怎么评估这个效果呢? 用衡量缓存好坏的指标 2.有没有哪个指标可以衡量缓存使用的好坏呢? 缓存命中率 3.什么是缓存命中率? 所谓 ...
[LeetCode] 285. Inorder Successor in BST 二叉搜索树中的中序后继节点
Given a binary search tree and a node in it, find the in-order successor of that node in the BST. Th ...
log4j输出到控制台的性能问题
一.背景最近几个业务遇到服务假死的情况,通过排查,我们发现是因为业务在线上使用了日志框架的ConsoleAppender所致. 请尊重作者劳动成果,转载请标明原文链接:https://www.cnb ...
JaCoCo覆盖率计数器
覆盖率计数器 JaCoCo使用一组不同的计数器来计算覆盖率指标.所有这些计数器都是从Java类文件里获取信息,这些类文件包含Java 字节码指令和调试信息.即使没有可用源代码情况下,这种方法可以实时有 ...
wpf “{DependencyProperty.UnsetValue}”不是属性“Background”的有效值。异常
, 在wpf模板中, 有一个Background绑定的值不存在导致的异常, 我的是有这个没有导致的错误, 自己添加之后就没有了
解决VMware虚拟机中centos 7无法上网的问题
在WMware中安装centos 7后发现无法安装软件,开始以为是镜像服务器的问题,后来通过ping之后发现根本没办法连接到网络.由于很多设置都是默认的,并且虚拟机也是NAT模式,和电脑主机共享网络, ...

sklearn聚类评价指标