Matlab聚类分析[转]

Matlab提供系列函数用于聚类分析，归纳起来具体方法有如下：

方法一：直接聚类，利用clusterdata函数对样本数据进行一次聚类，其缺点为可供用户选择的面较窄，不能更改距离的计算方法，该方法的使用者无需了解聚类的原理和过程，但是聚类效果受限制。

方法二：层次聚类，该方法较为灵活，需要进行细节了解聚类原理，具体需要进行如下过程处理：（1）找到数据集合中变量两两之间的相似性和非相似性，用pdist函数计算变量之间的距离；（2）用 linkage函数定义变量之间的连接；（3）用cophenetic函数评价聚类信息；（4）用cluster函数创建聚类。

方法三：划分聚类，包括K均值聚类和K中心聚类，同样需要系列步骤完成该过程，要求使用者对聚类原理和过程有较清晰的认识。

接下来，介绍Matlab中的相关函数和相关聚类方法。

1．Matlab中相关函数介绍

1.1 pdist函数

调用格式：Y=pdist(X,’metric’)

说明：用 ‘metric’指定的方法计算 X 数据矩阵中对象之间的距离。’

X：一个m×n的矩阵，它是由m个对象组成的数据集，每个对象的大小为n。

metric’取值如下：

‘euclidean’：欧氏距离（默认）；‘seuclidean’：标准化欧氏距离；

‘mahalanobis’：马氏距离；‘cityblock’：布洛克距离；

‘minkowski’：明可夫斯基距离；‘cosine’：

‘correlation’： ‘hamming’：

‘jaccard’： ‘chebychev’：Chebychev距离。

1.2 squareform函数

调用格式：Z=squareform(Y,..)

说明：强制将距离矩阵从上三角形式转化为方阵形式，或从方阵形式转化为上三角形式。

1.3 linkage函数

调用格式：Z=linkage(Y,’method’)

说明：用‘method’参数指定的算法计算系统聚类树。

Y：pdist函数返回的距离向量；

method：可取值如下：

‘single’：最短距离法（默认）； ‘complete’：最长距离法；

‘average’：未加权平均距离法； ‘weighted’：加权平均法；

‘centroid’：质心距离法； ‘median’：加权质心距离法；

‘ward’：内平方距离法（最小方差算法）

返回：Z为一个包含聚类树信息的（m-1）×3的矩阵。

1.4 dendrogram函数

调用格式：[H，T，…]=dendrogram(Z,p，…)

说明：生成只有顶部p个节点的冰柱图（谱系图）。

1.5 cophenet函数

调用格式：c=cophenetic(Z,Y)

说明：利用pdist函数生成的Y和linkage函数生成的Z计算cophenet相关系数。

1.6 cluster 函数

调用格式：T=cluster(Z,…)

说明：根据linkage函数的输出Z 创建分类。

1.7 clusterdata函数

调用格式：T=clusterdata(X,…)

说明：根据数据创建分类。

T=clusterdata(X,cutoff)与下面的一组命令等价：

Y=pdist(X,’euclid’);

Z=linkage(Y,’single’);

T=cluster(Z,cutoff);

2. Matlab聚类程序的设计

2.1 方法一：一次聚类法

X=[11978 12.5 93.5 31908;…;57500 67.6 238.0 15900];

T=clusterdata(X,0.9)

2.2 方法二和方法三设计流程：分步聚类

Step1 寻找变量之间的相似性

用pdist函数计算相似矩阵，有多种方法可以计算距离，进行计算之前最好先将数据用zscore函数进行标准化。

X2=zscore(X); %标准化数据

Y2=pdist(X2); %计算距离

Step2 定义变量之间的连接

Z2=linkage(Y2);

Step3 评价聚类信息

C2=cophenet(Z2,Y2); //0.94698

Step4 创建聚类，并作出谱系图

T=cluster(Z2,6);

H=dendrogram(Z2);

Matlab聚类分析[转]的更多相关文章

matlab做聚类分析
说明:如果是要用matlab做kmeans聚类分析,直接使用函数kmeans即可.使用方法:kmeans(输入矩阵,分类个数k). 转载一: MATLAB提供了两种方法进行聚类分析: 1.利用 clu ...
K-means聚类分析MATLAB代码
function kmeans load q1x.dat; a1=round(98*rand+1); a2=round(98*rand+1); miao1=[q1x(a1,1),q1x(a1,2)]; ...
机器学习笔记----Fuzzy c-means(FCM)模糊聚类详解及matlab实现
前言:这几天一直都在研究模糊聚类.感觉网上的文档都没有一个详细而具体的讲解,正好今天有时间,就来聊一聊模糊聚类. 一:模糊数学我们大家都知道计算机其实只认识两个数字0,1.我们平时写程序其实也是这样 ...
《MATLAB数据分析与挖掘实战》赠书活动
<MATLAB数据分析与挖掘实战>是泰迪科技在数据挖掘领域探索10余年经验总结与华南师大.韩山师院.广东工大.广技师等高校资深讲师联合倾力打造的巅峰之作.全书以实践和实用为宗旨,深度 ...
蚁群算法和简要matlab来源
1 蚁群算法原理从1991由意大利学者 M. Dorigo,V. Maniezzo 和 A. Colorni 通过模拟蚁群觅食行为提出了一种基于群体的模拟进化算法--蚁群优化.极大关注,蚁群算法的特 ...
MATLAB统计工具箱转
D:\Program Files\MATLAB\R2012b\toolbox\stats\stats MATLAB统计工具箱包括概率分布.方差分析.假设检验.分布检验.非参数检验.回归分析.判别分析. ...
数学建模及机器学习算法（一）：聚类-kmeans（Python及MATLAB实现，包括k值选取与聚类效果评估）
一.聚类的概念聚类分析是在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好.我们事先并不知道数据的正确结果(类标),通过聚类算法来发现和挖掘数据本身的结 ...
数据集成、变换、归约及相关MATLAB工具箱函数
数据预处理的主要内容包括数据清洗.数据集成.数据变换和数据规约,在数据挖掘的过程中,数据预处理工作量占到了整个过程的60%.数据清洗在上一篇博客中写过,这里主要写后面三部分. 数据集成数据挖掘需要的 ...
数据质量、特征分析及一些MATLAB函数
MATLAB数据分析工具箱 MATLAB工具箱主要含有的类别有: 数学类.统计与优化类.信号处理与通信类.控制系统设计与分析类.图像处理类.测试与测量类.计算金融类.计算生物类.并行计算类.数据库访问 ...

随机推荐

字符串反转实现（C++）
字符串反转 C++实现,不使用系统函数: // ReverseString.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include ...
CentOS 6.7 配置nginx支持SSL/https访问
一.安装必要的包 yum install openssl openssl-devel 二.配置编译参数,增加对SSL的支持 ./configure –with-http_ssl_module 三.修改 ...
Tomcat集群，Nginx集群，Tomcat+Nginx 负载均衡配置，Tomcat+Nginx集群
Tomcat集群,Nginx集群,Tomcat+Nginx 负载均衡配置,Tomcat+Nginx集群 >>>>>>>>>>>> ...
JSON 学习总结 <一>：什么是JSON
JSON的相关资料和博客很多,JSON无处不用,最近项目中一直要用到JSON,今天没有加班,就写下,算是对自己的总结,对JSON又一次深入的认识. 废话不多了,直接进入今天的主题: 如题:今天就介绍下 ...
web前端：css
css简介: web文档的结构由html元素定义,而这些html元素是如何显示的,则是由层叠样式表css来定义,这样就实现了结构与表现的分离. 1.外部样式表可以将样式定义放在一个单独的文件中,并且 ...
s标签可以if elseif else
首先引用s标签: <%@ taglib prefix="s" uri="/struts-tags" %> 使用s标签进行if elseif else ...
android 微信分享没反应问题总结
一.废话我必须说我再这个上面吃了很多的亏,所以希望有人不跟我一样吃亏.因为我本身不够仔细的原因,所以我希望能够做一些总结.---废话讲完. 这个文章已经过时了.是几年前写的.http://www. ...
数据库msqlserver的几种类型及解决MSSQLServer服务启动不了的问题
从08年开始学习了sqlserver数据库之后,就一直以为sqlserver只有版本的区分,没有类型的差异:总以为从Sql2000. sql2005到sql2008.sql2012,微软出口的数据库, ...
Oracle 11g服务
成功安装Oracle 11g后,共有7个服务, 这七个服务的含义分别为: 1. Oracle ORCL VSS Writer Service: Oracle卷映射拷贝写入服务,VSS(Volume S ...
iOS 正则表达式-判断邮箱、手机号
判断是否是邮箱 -(BOOL)isValidateEmail:(NSString *)email { NSString *emailRegex = @"[A-Z0-9a-z._%+-]+@[ ...

Matlab聚类分析[转]

Matlab聚类分析[转]

Matlab聚类分析[转]的更多相关文章

随机推荐

热门专题