每R一点：层次聚类分析实例实战-dist、hclust、heatmap等（转）

聚类分析：对样品或指标进行分类的一种分析方法，依据样本和指标已知特性进行分类。本节主要介绍层次聚类分析，一共包括3个部分，每个部分包括一个具体实战例子。

1、常规聚类过程：

一、首先用dist()函数计算变量间距离
dist.r = dist(data, method=" ")
其中method包括6种方法，表示不同的距离测度："euclidean", "maximum", "manhattan", "canberra", "binary" or "minkowski"。相应的意义自行查找。

二、再用hclust()进行聚类
hc.r = hclust(dist.r, method = “ ”)
其中method包括7种方法，表示聚类的方法："ward", "single", "complete","average", "mcquitty", "median" or "centroid"。相应的意义自行查找。

三、画图
plot(hc.r, hang = -1,labels=NULL) 或者plot(hc.r, hang = 0.1,labels=F)
hang 等于数值，表示标签与末端树杈之间的距离，
若是负数，则表示末端树杈长度是0，即标签对齐。
labels 表示标签，默认是NULL，表示变量原有名称。labels=F :表示不显示标签。

实例介绍：

特殊情况用法：

当用已知距离矩阵进行聚类时，即变量间的距离已经计算完，只是想用
已知的距离矩阵进行聚类。这时，需将距离矩阵转成dist类型。
然后再执行hclust()聚类和plot()画图。

# mydata作为距离矩阵,且为正方矩阵

mydata<-matrix(1:25,ncol=5);

class(mydata);

# 把mydata变成dist类型

mydist<-as.dist(mydata);

class(mydist);

[1] "dist"

myhc<-hclust(mydist,method="complete")；

myhc；

Call:

hclust(d = mydist, method ="complete")

Cluster method   : complete

Number of objects: 5

plot(myhc,hang=0.1)

2、热图聚类过程：

一、首先用dist()函数计算变量间距离
dist.r = dist(data, method=" ")

二、用heatmap()函数进行热点图聚类
对于heatmap中具体参数，这里不做过多介绍，可在帮助文档中找说明。除此heatmap函数之外，gplots包中的heatmap.2()函数，也可以做热点图聚类。

其中参数不做过多描述。若有需求，请分享并回复：heatmap.2

即可得到答案。

实战例子：

require(graphics);

dist.r<-dist(USArrests,method="euclidean") # 方法：欧氏距离

dist.r

#聚类并画图

heatmap(as.matrix(dist.r))

3、多维标度和聚类的结果

MDS方法对距离矩阵进行降维，用不同的颜色来表示聚类的结果。
另一种聚类效果展示。

例子：

转自：http://mp.weixin.qq.com/s?__biz=MzA3NDUxMjYzMA==&mid=209248280&idx=2&sn=c0ec5d9a9b060654ffdaad3d6911a812#rd

每R一点：层次聚类分析实例实战-dist、hclust、heatmap等（转）的更多相关文章

R语言简单聚类分析
#以R基础包自带的鸢尾花(Iris)数据进行聚类分析iris data <- iris[,:] #系统聚类法(层次聚类法) distance <- dist(data) #计算距离 iri ...
Mariadb/MySQL多实例实战
Mariadb/MySQL多实例实战作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.安装MySQL程序无论你喜欢哪种方式安装均可,关于源码安装,yum安装或者二进制安装,可以 ...
R学习:《R语言数据分析与挖掘实战》PDF代码
分三个部分:基础篇.实战篇.提高篇.基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例实践获得数据挖掘项目经验,同时快速领悟看似难懂的数据 ...
吴裕雄数据挖掘与分析案例实战（15）——DBSCAN与层次聚类分析
# 导入第三方模块import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfr ...
机器学习 | 聚类分析总结 & 实战解析
聚类分析是没有给定划分类别的情况下,根据样本相似度进行样本分组的一种方法,是一种非监督的学习算法.聚类的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度划分为若干组,划分的原则是组内距离最小化 ...
R语言系统聚类分析1
#聚类分析是一类将数据所研究对象进行分类的统计方法,这一类方法的共同特点是:#事先不知道类别的个数与结构据以进行分类的数据是对象之间的相似性或差异性数据#将这些相似(相异)性数据看成是对象之间的距 ...
ML: 聚类算法R包-层次聚类
层次聚类 stats::hclust stats::dist R使用dist()函数来计算距离,Usage: dist(x, method = "euclidean", di ...
R语言各种假设检验实例整理（常用）
一.正态分布参数检验例1. 某种原件的寿命X(以小时计)服从正态分布N(μ, σ)其中μ, σ2均未知.现测得16只元件的寿命如下: 159 280 101 212 224 379 179 264 ...
CentOS7.7下二进制部署MySQL多版本多实例实战
第一章需求说明部署MySQL5.7的三个多实例环境(端口分别为3307,3308,3309) 部署MySQL5.6和8.0版本数据库实例((端口分别为3316和3326) 第二章环境准备 1.虚 ...

随机推荐

跟着刚哥梳理java知识点——面向对象（八）
面向对象的核心概念:类和对象. 类:对一类事物描述,是抽象的.概念上的定义. 对象:实际存在的该类事物的每个个体,因而也成为实例(Instance). Java类及类的成员:属性(成员变量Field) ...
html 压缩工具 html-minifier
https://github.com/kangax/html-minifier#options-quick-reference 1.参数列表 option Description Default re ...
使用gulp编译sass
之前写了一篇在ruby环境下如何编译sass的文章:<css预处理器sass使用教程(多图预警)>,随着现在前端构建工具的兴起,也学着使用这些工具来编译sass.webpack存在一个CS ...
Linux - atexit()（注册终止）函数
进程终⽌的⽅式有8种,前5种为正常终⽌,后三种为异常终⽌: 1. 从main函数返回: 2 .调⽤exit函数:3 .调⽤_exit或_Exit:4 .最后⼀个线程从启动例程返回:5 .最后⼀个线程调 ...
Mahout源码分析：并行化FP-Growth算法
FP-Growth是一种常被用来进行关联分析,挖掘频繁项的算法.与Aprior算法相比,FP-Growth算法采用前缀树的形式来表征数据,减少了扫描事务数据库的次数,通过递归地生成条件FP-tree来 ...
stl_config.h基本宏
四.宏: (其实呢, 我们所有的宏都包含在了 "stl_config.h"头文件中.) //这些宏是怎么判断是否需要定义:是否有指定的宏,还有一些特定的编译器也可能支持. 4.1. ...
人生苦短，我用Python
Life is short, You need Python. 工作中常常要用到脚本来完成许多重复性的工作,刚开始是查数据库的时候,也曾用shell 来写脚本,但终于还是觉得shell太艰涩, 一行命 ...
macOS 下配置 MAMP 开发环境（Mac + Apache + Mysql + PHP）
macOS 中已经内置了 PHP.Python.Ruby.Perl 等常用的脚本语言,以及 Apache HTTP 服务器,所以使用起来非常方便.本文以最新的 macOS Sierra 10.12 配 ...
WebGIS开源解决方案之开发环境搭建(四)
续前几篇文章,前面陆续介绍了开源GIS服务器Geoserver,开源数据库Postpresql以及开源前端udig的安装和基本使用. WebGIS前端开发,可以选择arcgis for javascr ...
IOS(一) 基础控件的介绍以及使用
IOS的界面的制作,相对于Android来说简洁了很多,虽然创建布局的方式都是两种(代码创建.布局文件) 但是Android中的xml布局文件在某些方面也属于代码创建,因为自己使用到得每一个属性都 ...

每R一点：层次聚类分析实例实战-dist、hclust、heatmap等（转）

每R一点：层次聚类分析实例实战-dist、hclust、heatmap等（转）的更多相关文章

随机推荐

热门专题