聚类结果的好坏,有很多种指标,其中F-Measue即F值是常用的一种,其中包括precision(查准率或者准确率)和recall(查全率或者召回率). F-Measue是信息检索中常用的评价标准. F-Measue的公式如下: \[{{F}_{\beta }}=\frac{\left( {{\beta }^{2}}+1 \right)P\cdot R}{{{\beta }^{2}}\cdot P+R}\] 其中${\beta}$是参数,P是precision,R是reacll.通常${\bet…
一.聚类的概念 聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好.我们事先并不知道数据的正确结果(类标),通过聚类算法来发现和挖掘数据本身的结构信息,对数据进行分簇(分类).聚类算法的目标是,簇内相似度高,簇间相似度低 二.基本的聚类分析算法 1. K均值(K-Means): 基于原型的.划分的距离技术,它试图发现用户指定个数(K)的簇. 2. 凝聚的层次距离: 思想是开始时,每个点都作为一个单点簇,然后,重复的合并两个最靠近的簇,直到尝…
代码如下: """ 下面的方法是用kmeans方法进行聚类,用calinski_harabaz_score方法评价聚类效果的好坏 大概是类间距除以类内距,因此这个值越大越好 """ import matplotlib.pyplot as plt from sklearn.datasets.samples_generator import make_blobs from sklearn.cluster import KMeans from skle…
原地址: GMM与K-means聚类效果实战 备注 分析软件:python 数据已经分享在百度云:客户年消费数据 密码:lehv 该份数据中包含客户id和客户6种商品的年消费额,共有440个样本 正文 一.数据探索和预处理 1.读取数据 import numpy as np import pandas as pd data = pd.read_excel(r'C:\Users\user\Desktop\客户年消费数据.xlsx') 2.缺失检查 print('各字段缺失情况:\n', data.…
这几天在做用户画像,特征是用户的消费商品的消费金额,原始数据(部分)是这样的: id goods_name goods_amount 男士手袋 1882.0 淑女装 2491.0 女士手袋 345.0 基础内衣 328.0 商务正装 4985.0 时尚 969.0 女饰品 86.0 专业运动 399.0 童装(中大童) 2033.0 男士配件 38.0 我们看到同一个id下面有不同的消费记录,这个数据不能直接拿来用,写了python程序来进行处理:test.py #!/usr/bin/pytho…
这几天在做用户画像,特征是用户的消费商品的消费金额,原始数据(部分)是这样的: id goods_name goods_amount 男士手袋 1882.0 淑女装 2491.0 女士手袋 345.0 基础内衣 328.0 商务正装 4985.0 时尚 969.0 女饰品 86.0 专业运动 399.0 童装(中大童) 2033.0 男士配件 38.0 我们看到同一个id下面有不同的消费记录,这个数据不能直接拿来用,写了python程序来进行处理:test.py #!/usr/bin/pytho…
人生如戏!!!! 一.理论准备 聚类算法,不是分类算法.分类算法是给一个数据,然后判断这个数据属于已分好的类中的具体哪一类.聚类算法是给一大堆原始数据,然后通过算法将其中具有相似特征的数据聚为一类. K-Means算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇.然后按平均法重新计算各个簇的质心,从而确定新的簇心.一直迭代,直到簇心的移动距离小于某个给定的值. 算法大致思路:       1.从给定样本中任选几个点作为初始中心(我取k=2)       2.计算其余…
MATLAB中“fitgmdist”的用法及其GMM聚类算法 作者:凯鲁嘎吉 - 博客园http://www.cnblogs.com/kailugaji/ 高斯混合模型的基本原理:聚类——GMM,MATLAB官方文档中有关于fitgmdist的介绍:fitgmdist.我之前写过有关GMM聚类的算法:GMM算法的matlab程序.这篇文章主要应用MATLAB自带的函数来进行聚类. 1. fitgmdist函数介绍 fitgmdist的使用形式:gmm = fitgmdist(X,k,Name,V…
以K-means算法为例,实现了如下功能 自动生成符合高斯分布的数据,函数名为gaussianSample.m 实现多次随机初始化聚类中心,以找到指定聚类数目的最优聚类.函数名myKmeans.m 自动寻找最佳聚类数目,函数名称besKmeans.m,并绘制了拐点图(L图) gaussianSample.m function [data] = gaussianSample(n,m,mu,sigma,sigma1) % 生成n个符合多元高斯分布的样本 % data = gaussianSample…
今年 6 月份,Alex Rodriguez 和 Alessandro Laio 在 Science 上发表了一篇名为<Clustering by fast search and find of density peaks>的文章,为聚类算法的设计提供了一种新的思路.虽然文章出来后遭到了众多读者的质疑,但整体而言,新聚类算法的基本思想很新颖,且简单明快,值得学习.这个新聚类算法的核心思想在于对聚类中心的刻画上,本文将对该算法的原理进行详细介绍,并对其中的若干细节展开讨论. 最后,附上作者在补充…