一:导入R包及需要画热图的数据

library(pheatmap)

data<- read.table("F:/R练习/R测试数据/heatmapdata.txt",head = T,row.names=1,sep="\t")

二:画图

1)pheatmap(data)#默认参数

2)pheatmap(data,clustering_distance_rows = "correlation")#聚类线长度优化

3)pheatmap(data,scale="column")#按列均一化,"row","column" or "none"默认是"none"

4)pheatmap(data,scale="row")#按行均一化,"row","column" or "none"默认是"none"

5)pheatmap(data,display_numbers=T,number_format="%.2f",number_color="red",fontsize_number=8)#是否在每一格上显示数据,及其数据格式,大小及其颜色

6)pheatmap(data,cellwidth = 50,cellheight= 14)#格子大小

7) pheatmap(data,main="sbheatmap")#标题

8)pheatmap(data,color = colorRampPalette(c("MediumBlue","white","red"))(256))#颜色

9)pheatmap(data,clustering_distance_rows = "correlation",scale="column",display_numbers=T,number_format="%.1f",number_color="black",
fontsize_number=8,cellwidth = 14,cellheight= 14,color = colorRampPalette(c("MediumBlue","white","red"))(256))

一、热图工具的参数与原理
(1)关于均一化的方法原理:
     热图的核心思想是:使用渐变的颜色来代表数值的变化,以便其更加直观。使用RNA-seq的表达量数据绘制热图,最大的问题是不同基因的表达量差异过于巨大。例如:基因A的平均表达量是10,000(所有样本的表达量都在5,000~15,000),而基因B的平均表达量是100(所有样本的表达量都在50~500间波动)。那么问题来了,因为它们数值差异过大,根本不在一个数量级上,那么就很难在一张热图中使用合理的颜色标尺来反映两个基因在不同样本的表达量变化。
所以在热图中,我们通常会对基因的表达量做一个归一化的处理。具体的做法,就是将每个基因的表达量减去这个基因在所有样本中表达量的均值,然后除以其标准差。这个处理也叫标准正态化,或Z-score处理(感兴趣的同学可以自己百度一下)。
这个处理非常巧妙,每一个基因在所有样本中的表达量被等比例缩放。这样处理后,每一个基因在所有样本的表达量,都变成了均值为0,标准差为1的一组值。因为所有样本的表达量都在1个数量级的水平了,所以使用一套颜色配色体系,就可以很好地展示所有基因在不同样本的变化规律。
(2)均一化的参数选择
热图的均一化目的是将贫富差距过大的基因,拉到同一个数量级。而通常在画热图的时候,1个基因在不同样本的表达量会在行的方向上分布。所以,我们的均一化处理将按行处理。所以这种情况下,我们的均一化参数选择:row。当然,如果你的表达量表中,同一个基因的表达量在列的方向上分布,自然这个参数就要选择 column了。
注意要点(非常重要):
    1)当数据中,某一行完全相同的时候,标准差=0,那么理论上是无法使用以上的Z-score公式进行均一化(公式中标准差是分母,不能为0)。所以,如果你的数据中包含某个基因(行方向)数值在所有样本完全相同的情况,OS-tools会自动将这一行删除。
    2)如果你的数据只有两列,那么使用按行归一化的话,图形将很丑陋,如下图:

原因是当每行只有两个数值的时候,任何两个不同的数值标准正态均一化后,都会变成-1和1。所以,会产生上述的图形(只有两种颜色)。面对这种类型的数据,建议直接计算每行两个数值的倍数的log2值,然后使用OS-tools画单列的热图。  
     当然, 单列热图也可以使用R语言的pheatmap包绘制,并通过一个函数控制0点的位置,在另一个R语言绘图的主题帖中也有介绍。
(3)聚类的原理

    我们用R语言pheatmap包,默认情况下将利用表达量信息计算两两样本间的欧氏距离,然后利用欧式距离实现样本的聚类。

如同上图的聚类效果,简单说来,在基因完成归一化处理后,如果我们对行聚类(在上图中也就是对基因聚类),那么基因的顺序就会被重排。表达规律比较相似的基因将会被排在一起。表达模式差异越大的基因,则会远离。类似的,如果对列聚类(在上图中也就是对样本聚类),那么样本的顺序将会被重排,表达模式比较相似的样本自动会被归为一类。

       如上图,共有11个样本的约40个基因被用于绘制热图。从聚类的效果来看,11个样本可以归为两类,其实就是对应病人和正常人。40个基因也被归为两类,分别是病人组上调或下调表达的基因。
(4)聚类参数什么情况下使用
聚类的本质就是重排序,所以我们应该按照实际情况选择是否聚类。
     a)需要聚类的情况:
     需要对样本或基因按照表达模式分类,那么请选择聚类。例如,上图中需要对正常人和病人利用基因表达量进行分类,那么的确应该选择聚类。
     另外,聚类的结果就是相似的东西被排布在一起,所以聚类后的图形也更加有序和美观。
     b)不需要聚类的情况:
     在某些情况下,我们只是需要使用热图来直观呈现基因在样本中的变化规律,而样本的顺序是我们提前定义好的,那么则要考虑将聚类功能关闭。
 
    
例如,在以下的热图中,选择了对行(基因)聚类,不对列(样本)聚类。那是因为作者希望通过聚类,将表达模式相似基因归为一类在图中展示,所以基因聚类选择yes。而样本(列)是作者提前排好序的,是小鼠三个组织在6个发育阶段的样本。因为样本是提前排好序的,当然作者不希望这个顺序被打乱,所以列选择不聚类。
       备注:图中的分类标签,必须使用R包 pheatmap绘制热图才能添加。
图4 基因聚类但样本不聚类的例子。
 
    
还有两个方向都不聚类的例子。例如在下图中,X轴是1个实验处理后0h、5h、10h的样本,是作者提前排好序的。本意是想呈现相关基因在梯度时间水平的变化规律。当然,作者不想这个顺序被重新排布了,所以列方向的聚类选择:no。在y轴方向,这些基因也是作者提前按照其所属的基因家族排过序的,当然也不想其顺序被打乱,所以行聚类也是选择no。
图5 两个方向都不聚类的例子
(5)其他参数
     工具中的其他参数还包括:
     颜色选择:选择绘制热图的色系。考虑到绿红的色系,对红绿色盲来说区分有些困难,某些杂志不接受绿红色系。建议用户使用蓝红灯其他渐变色系;
     字体大小:当热图样本、基因数太多的时候,可以通过减少字体大小来保证正常显示;
     格子高、宽:主要为了美观而调整;
     格子上是否显示数字:是否将表达量的数值写在格子中,就看用户自己选择了。
     画出格子边界:如果相邻的格子颜色相似,可以通过画出边界来提高区分度。在格子数较少的时候,建议画出格子边界会更加美观。
 

用R包中heatmap画热图的更多相关文章

  1. R绘图(2): 离散/分类变量如何画热图/方块图

    相信很多人都看到过上面这种方块图,有点像"华夫饼图"的升级版,也有点像"热图"的离散版.我在一些临床多组学的文章里面看到过好几次这种图,用它来展示病人的临床信息 ...

  2. 机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集

    机器学习数据集,主数据集不能通过,人脸数据集介绍,从r包中获取数据集,中国河流数据集   选自Microsoft www.tz365.Cn 作者:Lee Scott 机器之心编译 参与:李亚洲.吴攀. ...

  3. Matplotlib学习---用matplotlib画热图(heatmap)

    这里利用Nathan Yau所著的<鲜活的数据:数据可视化指南>一书中的数据,学习画图. 数据地址:http://datasets.flowingdata.com/ppg2008.csv ...

  4. HeatMap(热图)的原理和实现

    先来看两张图: (1)10年世界杯决赛,冠军西班牙队中门将.后卫.中场及前锋的跑位热图 通过热图,我们可以很清楚的看出四个球员在比赛中跑动位置的差异. (2)历史地震震源位置的热图 也可以很清楚的看出 ...

  5. python中matplotlib画折线图实例(坐标轴数字、字符串混搭及标题中文显示)

    最近在用python中的matplotlib画折线图,遇到了坐标轴 "数字+刻度" 混合显示.标题中文显示.批量处理等诸多问题.通过学习解决了,来记录下.如有错误或不足之处,望请指 ...

  6. 【代码更新】单细胞分析实录(20): 将多个样本的CNV定位到染色体臂,并画热图

    之前写过三篇和CNV相关的帖子,如果你做肿瘤单细胞转录组,大概率看过: 单细胞分析实录(11): inferCNV的基本用法 单细胞分析实录(12): 如何推断肿瘤细胞 单细胞分析实录(13): in ...

  7. seaborn用heatmap画热度图

    原文链接 https://blog.csdn.net/m0_38103546/article/details/79935671

  8. complexHeatmap包画分类热图

    用途:一般我们画热图是以连续变量作为填充因子,complexHeatmap的oncopoint函数可以以类别变量作为填充因子作热图. 用法:oncoPrint(mat, get_type = func ...

  9. gplots heatmap.2和ggplot2 geom_tile实现数据聚类和热图plot

    主要步骤 ggplot2 数据处理成矩阵形式,给行名列名 hclust聚类,改变矩阵行列顺序为聚类后的顺序 melt数据,处理成ggplot2能够直接处理的数据结构,并加上列名 ggplot_tile ...

随机推荐

  1. 【Eclipse】eclipse自动提示+自动补全

    解决代码的自动提示问题: 1.打开 Eclipse -> Window -> Perferences 2.找到Java 下的 Editor 下的 Content Assist , 右边出现 ...

  2. 带约束的粒子群优化算法C++实现

    2018年1月份给师姐做的一个小项目,本来不打算写的,因为论文还没发表,涉及查重等乱七八糟的问题.... 感觉现在不写,以后应该来不及了,因为已经在实习岗位了.... 不做过多介绍,只做大概的描述,我 ...

  3. 17.scrapy-splash安装-2

    scrapy-splash是一个scrapy中支持的javascript渲染的工具. scrapy-splash安装分为两部分.一个是splash服务的安装,具体是通过docker,安装之后,会启动一 ...

  4. MySQL把文件导入表中

    1. Mysql 把本地文件导入表中 drop table if exists wufangzhai_caigou_group; create table wufangzhai_caigou_grou ...

  5. <转载>C#与JAVA的区别 http://www.cnblogs.com/Asa-Zhu/archive/2012/11/08/2761114.html

    C#(C-Sharp)是Microsoft的新编程语言,被誉为“C/C++家族中第一种面向组件的语言”.然而,不管它自己宣称的是什么,许多人认为C#更像是Java的一种克隆,或者是Microsoft用 ...

  6. centos7 更新yum报错initscripts conflicts with centos-release-7-3.1611.el7.centos.x86_64

    1.centos7的系统的yum 更新系统报错: --> 解决依赖关系完成错误:initscripts conflicts with centos-release-7-3.1611.el7.ce ...

  7. 四、Java web 部 分试题

    1 .Tomcat 的 优 化 经 验 答:去掉对 web.xml 的监视,把 jsp 提前编辑成 Servlet. 有富余物理内存的情况,加大 tomcat 使用的 jvm 的内存 2 .HTTP ...

  8. WIN10下VS CODE 更新后拓展宿主意外终止问题解决方法(每次系统更新都要删除一次git)

    S CODE最近更新后,一打开就会出现拓展宿主意外终止的错误,点重新加载等都不好用. 出现这个问题主要是和git有关,做如下操作处理就好: 打开vscode安装文件夹->resource文件夹- ...

  9. Collection List接口

    常用的:ArrayList,Vector 特点:有序的,允许多个空值

  10. Python conda 入门

    https://blog.csdn.net/yimingsilence/article/details/79388205 查看版本 conda --version 列出所有的Python环境 cond ...