散点图
数据点在直角坐标系平面上的分布图。在宏基因组领域,散点图常用于展示样品组间的Beta多样性,常用的分析方法有主成分分析(PCA),主坐标轴分析(PCoA/MDS)和限制条件的主坐标轴分析(CPCoA/CCA/RDA)。
Beta多样性
Beat多样性是生态学概念,专指不同组或生态位间物种组成的差异。
分析方法
在读文章中经常可以看到PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析。它们在本质上是排序(ordination)分析。排序的过程就是在一个可视化的低维空间(通常是二维)重新排列这些样品,使得样方之间的距离最大程度地反映出平面散点图内样品间的关系信息。常用的排序方法如下:
1、只使用物种组成数据的排序称作非限制性排序(unconstrained ordination)
==即无限制条件,只找所有样品间的最大差异的投影平面==,主要方法如下:
1. 主成分分析(principal components analysis,PCA)是一种常用的数据间差异分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征向量,常用于高维数据的降维。原理推荐阅读PCA的数学原理。
2. 对应分析(correspondence analysis, CA)
3. 去趋势对应分析(Detrended correspondence analysis, DCA)
4. 主坐标分析(principal coordinate analysis, PCoA)
5. 非度量多维尺度分析(non-metric multi-dimensional scaling, NMDS)
在非限制性排序中,分析种类很多,但原理相近。16S和宏基因组数据分析通常用到的是PCA分析和PCoA。原理有时间可以细读,但至少知道是用坐标间距离来反应样品间差异大小即可。
PCA和PCoA分析的区别:PCA分析是基于原始的物种组成矩阵所做的排序分析,而PCoA分析则是基于由物种组成计算得到的距离矩阵得出的。
2、同时使用物种和相关环境因子组成数据的排序叫作限制性排序(constrained ordination)
==即寻找某一条件下,可最大限制解释这一条件的投影平面==。条件可以为连续(温度、湿度、pH值、各种土壤理化性质等)或非连续的变量(如人为分组、基因型、地理位置、取样时间、实验批次等)。常分析方法有:
1. 冗余分析(redundancy analysis,RDA)
2. 典范对应分析(canonical correspondence analysis, CCA)
==此类方法可以计算某一条件下,各组间是否存在显著差异,并且可以计算出该条件下平面展示的差异占样品间总体差异的比例==
RDA或CCA的区别:RDA是基于线性模型,CCA是基于单峰模型。一般我们会选择CCA来做直接梯度分析。但是如果CCA排序的效果不太好,就可以考虑是不是用RDA分析。RDA或CCA选择原则:先用species-sample资料做RDA分析,看分析结果中Lengths of gradient 的第一轴的大小,如果大于4.0,就应该选CCA,如果3.0-4.0之间,选RDA和CCA均可,如果小于3.0, RDA的结果要好于CCA。
距离计算方法
样品两两间的距离计算方法也有多种方法,大家都应该听过Euclidean(欧几里德)吧,即有非常有名的欧氏距离(Euclidean distance)。在生物学研究中,主要分为两大类,一种是物种距离(如常用Jaccard,Bray-Curtis);另一种是基于进化的距离(Unifrac),基于进化的距离还包含权重(Weighted)和非权重(Unweight)两种。
在选择上,我习惯用Bray-Curtis距离,是因为这种方法在我研究的方面有比较好的结果。习惯上我是每种距离都做分析,那种能更好的解释科学问题就用那种。
看图实战(Result)
示例1. 非限制条件的PCoA
Edwards, J., et al. (2015). PNAS Fig. 1C
这篇文章分析了水稻根不同区域的细菌组成,16S分析文章较系统的作品,两年被引用147次,推荐阅读。
图1.C 主坐标轴分析(PCoA)展示样品间差异(Beta diversity),距离计算方法采用Weight Unifrac。
1. 图中元素解释
- X轴标签PCo 1 (46.3%)代表能最大区分所有样品的第一主坐标轴,可以解释样品中所有差异的46.3%;
- Y轴标签PCo 2 (11.5%)代表能最大区分所有样品的第二主坐标轴,可以解释样品中所有差异的11.5%;仅这两轴形成的第一个平面,即展示了样品间一半以上的差异;
- 下部形状图例(实心圆Arbuckle、三角Davis、正方形Sacaramen)对应的是地名,用以区分图中不同地区的材料;
- 左上角颜色图例,用以区分不同取材部位(compartment);
2. 图表结果:图中展示在最大解释率的第一坐标轴,不同颜色表示的取样部分可以很好的区分开,即样品间的差异主要是由于样品的来源不同决定的;同时不同形状代表的不同地区可以在第二坐标轴上可以较好的区分,表明不同地理位置对微生物组有影响,并且影响远小于不同取样部位;
3. 图观察规律或结论:植物根部特定的区域(不同取样来源)存在微生物组的差别,而且是最主要的差别,可很好的由第一坐标轴解释;不同地区土壤环境因素下根际微生物组也是明显不同的,是整体实验中第二大差异贡献原因,可以很好的在第二坐轴上区分开。
4. 经验和技巧:通常我们的实验设计和想要找的差异,根据预期的差异大小很可能与主坐标轴分开规律相一致,是因为我们的实验设计合理且有针对性(Common sense);颜色和形状的标注建议:因为人类对不同颜色的散点分布比较容易区分,故将最重要的发现用颜色标示,便于观察,可将第二关注的因素按形状标注;对于实验组大于7组时,颜色太多相近很难区分时,可以每组样品均标为不同颜色和形状来进一步对组进行区分。
示例2. 以取材部位和基因型为条件的主坐标轴分析(CPCoA/CCA)
这篇文章分析了百脉根根瘤的微生物组成,同时在根瘤缺失突变体条件下发现根和根际微生物均有较大差异的变化
图2. 散点图展示限制性主坐标轴分析(Constrained PCoA/ CCA)取材部位和基因型间的差异。
1. (A) 采用CCA方法结合bray-curtis距离,分析以取样部分(compartment)条件下可显示各组最大差异投影平面;图顶部19.97% of variance (P<0.001)表示当前所展示的平面坐标系,可解释所有样品间总差异的19.97%的(另一种我的解读是当前条件对样品间总差异的贡献率为19.97%,即导致差异所占的权重),并且各组间存在显著差异(P<0.001);
2. (B) 以基因型为条件分析最大解释基因型组间差异的空间平面,可解释9.82%的变异,并且有显著差异,其中作者按形状标出了各基因型;同时作者还按compartment进行着色,在这一平面上,compartment仍能很好的分开。
3. 图表结果:Compartment可解释19.97%差异,且区分明显;突变体与WT(gifu)可以区分,区分不大(占9.82%变异中的17.75%的纵轴上可区分);各突变体间很难区分,完全混在一起;在基因型最大解释平面上,compartment仍能非常好的在第一轴上区分。
4. 图表结论或规律:Compartment对微生物组成影响较大,基因型其次;不同根瘤突变体差异极小。
5. 图片优点:配色选择各组区分较好,不同图配色方案一致;图片使用矢量图线条和文字清楚(上面介绍水稻的文章全是位图,经过PDF的压缩,文字非常模糊)。个人建议,只要不是照片,画的图都用矢量,无极缩放不失真,一般体积还小,而且方便编辑修改。
- 扩增子图表解读1箱线图:Alpha多样性
箱线图 箱形图(Box-plot)又称为盒须图.盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图.因形状如箱子而得名.在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布 第一种情 ...
- 扩增子图表解读6韦恩图:比较组间共有和特有OTU或分类单元
韦恩图 Venn Diagram Venn Diagram,也称韦恩图.维恩图.文氏图,用于显示元素集合重叠区域的图示. 韦图绘制工具 常用R语言的VennDiagram包绘制,输出PDF格式方便 ...
- 扩增子图表解读4曼哈顿图:差异分类级别Taxonomy
曼哈顿图 Manhattan Plot 曼哈顿图本质上是一个散点图,用于显示大量非零大范围波动数值,最早应用于全基因组关联分析(GWAS)研究展示高度相关位点.它得名源于样式与曼哈顿天际线相似(如下图 ...
- 扩增子图表解读5火山图:差异OTU的数量及变化规律
火山图 Volcano plot 在统计学上,火山图是一种类型的散点图,被用于在大数据中快速鉴定变化.由于它的形成像火山喷发的样子,所以被称为火山图.和上文讲的曼哈顿图类似. 火山图基本元素 火山 ...
- 扩增子图表解读3热图:差异菌、OTU及功能
热图是使用颜色来展示数值矩阵的图形.通常还会结合行.列的聚类分析,以表达实验数据多方面的结果. 热图在生物学领域应用广泛,尤其在高通量测序的结果展示中很流行,如样品-基因表达,样品-OTU相对丰度矩 ...
- 扩增子图表解读8网络图:节点OTU或类Venn比较
网络图 Network 网络图虽然给人高大上的感觉,但是由于信息太多,无法给读者提供读有效的可读信息或是读者不知道该理解什么,总是让人望尔却步.那是因为大家太不了解网络,自己读不懂网络想表达的意思及其 ...
- 扩增子分析解读6进化树 Alpha Beta多样性
分析前准备 # 进入工作目录 cd example_PE250 上一节回顾:我们的OTU获得了物种注释,并学习OTU表的各种操作————添加信息,格式转换,筛选信息. 接下来我们学习对OTU序列的 ...
- 微生物组学数据分析工具综述 | 16S+宏基因组+宏病毒组+宏转录组--转载
转载:https://mp.weixin.qq.com/s/xsL9GuLs7b3nRF8VeRtinQ 建立在高通量测序基础上的微生物群落研究,当前主要有三大类:基于16S/18S/ITS等扩增子做 ...
- 扩增子分析解读5物种注释 OTU表操作
本节课程,需要先完成<扩增子分析解读>系列之前的操作 1质控 实验设计 双端序列合并 2提取barcode 质控及样品拆分 切除扩增引物 3格式转换 去冗余 聚类 4去嵌合体 非细菌序列 ...
随机推荐
- RMAN RECOVERY
Data Recovery Advisor The health monitor and the ADR The capabilities and limitations of DRA using t ...
- [Elasticsearch] 集群的工作原理 - 第一部分
本文翻译自Elasticsearch官方指南的life inside a cluster一章. ES就是为高可用和可扩展而生的. 扩展能够通过购置性能更强的server(垂直扩展或者向上扩展,Vert ...
- Wireshark 抓包遇到 you don’t have permission to capture on that device mac 错误的解决方案
Wireshark 抓包遇到 you don’t have permission to capture on that device mac 错误的解决方案 上次有篇博客讲了如何利用wireshark ...
- HDU 5305 Friends(dfs)
Friends Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/65536 K (Java/Others) Total Su ...
- VC中CString和WPARAM之间的相互转换
在传递自己定义消息的过程中.须要转换CString 变量. 在发送消息端使用例如以下方法: SendMessage(WM_MESSAG_MINE,0,(LPARAM)strVal.AllocSysSt ...
- Python学习笔记9:标准库之日期时间(time包,datetime包)
一 time包 sleep([float time]) 延迟一段以浮点数表示的秒数 time包基于C语言的库函数(library functions). Python的解释器一般是用C编写的,Pyth ...
- 5分钟APIG实战: 使用Rust语言快速构建API能力开放
序言:Rust语言简介 参与过C/C++大型项目的同学可能都经历过因为Null Pointer.Memory Leak等问题“被” 加班了不知道多少个晚上.别沮丧,你不是一个人,Mozilla Fir ...
- 修改RedHat 7.2 进程最大句柄数限制
RedHat对进程打开文件句柄数主要通过设置全局值和登陆用户分别管理.其中/proc/sys/fs下设置全局最大文件句柄数和用户进程能打开的最大文件句柄数,这两个参数一般情况下不需要修改. 对于普通用 ...
- 获取Access数据里所有表的名称和表的字段
-------------//获取Access数据库表名 public void GetTableName() { string connSt ...
- 华为FusionSphere概述——计算资源、存储资源、网络资源的虚拟化,同时对这些虚拟资源进行集中调度和管理
华为FusionSphere概述 FusionSphere是华为自主知识产权的云操作系统,集虚拟化平台和云管理特性于一身,让云计算平台建设和使用更加简捷,专门满足企业和运营商客户云计算的需求.华为云操 ...