曼哈顿图 Manhattan Plot 曼哈顿图本质上是一个散点图,用于显示大量非零大范围波动数值,最早应用于全基因组关联分析(GWAS)研究展示高度相关位点.它得名源于样式与曼哈顿天际线相似(如下图). 近几年,在宏基因组领域,尤其是差异OTU结合分类学结果,采用Manhattan plot展示有非常好的效果,倍受推崇.   曼哈顿图优点 大数据中,即展示数据全貌,又能快速找到目标基因或OTU,同时可知目标的具体位置和分类.显著程度等信息.绝对高端大气,而且还有内涵.   数据坐标轴介绍 以上…
火山图 Volcano plot 在统计学上,火山图是一种类型的散点图,被用于在大数据中快速鉴定变化.由于它的形成像火山喷发的样子,所以被称为火山图.和上文讲的曼哈顿图类似.   火山图基本元素 火山图也有很多种样式,在生物学高通量测序结果中,常见有的X和Y轴分别为aboundance 和 fold-change,或p-value和fold-change两种样式.如上图中为p-value versus fold-change的样式,,先此为例进行图中基本元素解读: - X轴:通常为两组基因表达或…
热图是使用颜色来展示数值矩阵的图形.通常还会结合行.列的聚类分析,以表达实验数据多方面的结果.  热图在生物学领域应用广泛,尤其在高通量测序的结果展示中很流行,如样品-基因表达,样品-OTU相对丰度矩阵非常适合采用热图呈现.   热图优点   因为人读数字需要思考和比较,而对颜色识别能力非常强,采用颜色的深浅代替数据表是非常高效的呈现方式,也便于从中挖掘规律.  热图在非常小的区域展示了大量的基因表达/细菌丰度数据,即可以快速比较组间的变化,同时还可以显示组内每个样品的的丰度,以及组内各样品间的…
韦恩图 Venn Diagram Venn Diagram,也称韦恩图.维恩图.文氏图,用于显示元素集合重叠区域的图示.   韦图绘制工具 常用R语言的VennDiagram包绘制,输出PDF格式方便修改.此外还有非常多的在线工具,使用方便.详见“轻松绘制各种Venn图”   韦恩图在扩增子中用途 展示各样品和组间共有.各组特有的OTU:由于此类结果缺少统计支持,假阳性率高,近年来使用越来越少. 展示各组间差异OTU共有或特有情况:较常用. 展示差异OTU所属的Taxonomy归类后的共有或特有…
箱线图 箱形图(Box-plot)又称为盒须图.盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图.因形状如箱子而得名.在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布 第一种情况,最大或最小值没有超过1.5倍箱体范围 第二种情况,最大或最小值超过1.5倍箱体范围,外位延长线外,即异常值(outliers)   Alpha多样性 知识背景:Alpha多样性计算方法  常见的丰度估计方法有Shannon, Chao1和Observed OTU和PD whole tree等.我…
散点图 数据点在直角坐标系平面上的分布图.在宏基因组领域,散点图常用于展示样品组间的Beta多样性,常用的分析方法有主成分分析(PCA),主坐标轴分析(PCoA/MDS)和限制条件的主坐标轴分析(CPCoA/CCA/RDA).   Beta多样性 Beat多样性是生态学概念,专指不同组或生态位间物种组成的差异.   分析方法 在读文章中经常可以看到PCA分析.PCoA分析,NMDS分析,CCA分析,RDA分析.它们在本质上是排序(ordination)分析.排序的过程就是在一个可视化的低维空间(…
网络图 Network 网络图虽然给人高大上的感觉,但是由于信息太多,无法给读者提供读有效的可读信息或是读者不知道该理解什么,总是让人望尔却步.那是因为大家太不了解网络,自己读不懂网络想表达的意思及其重要性.   因此我要举一个网络分析重要的例子,大家都知道2012年诺贝尔奖得主Yamanaka提出的诱导干细胞的四因子,其时在之前已经有多篇网络分析文章提出了这四因子,只是Yamanaka是第一实验验证的.值得一提的是这篇获得诺奖的Cell文章只有一个一作和一个通讯,据説是当时这课题没人看好,也没…
分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们的OTU获得了物种注释,并学习OTU表的各种操作————添加信息,格式转换,筛选信息.   接下来我们学习对OTU序列的进化分析.同时计算Alpha和Beta多样性值.   16. 进化树构建 进化树是基于多序列比对的结果,可展示丰富的信息,我们将在R绘图中详细解读.此处只是建树,用于Alpha, Beta多样性分析的输入文件. # clustalo多序列比对,如果没有请安装Clustal Omega clustal…
现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp,大多数都找到了很多的snp,而且snp都落在非编码区了,这就导致对这些snp的解读非常的困难. 目前,已经有非常傻瓜式的GWAS pipeline了,比如:A tutorial on conducting genome‐wide association studies: Quality contr…
画曼哈顿图和QQ plot 首推R包“qqman”,简约方便.下面具体介绍以下. 一.画曼哈顿图 install.packages("qqman") library(qqman) 1.准备包含SNP, CHR, BP, P的文件gwasResults(如果没有zscore可以不用管),如下所示: 2.上代码,如下所示: manhattan(gwasResults) 如果觉得不够美观,考虑添加一下参数: manhattan(gwasResults, main = "Manhat…