箱线图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因形状如箱子而得名。在宏基因组领域,常用于展示样品组中各样品Alpha多样性的分布
第一种情况,最大或最小值没有超过1.5倍箱体范围
第二种情况,最大或最小值超过1.5倍箱体范围,外位延长线外,即异常值(outliers)
 
Alpha多样性
知识背景:Alpha多样性计算方法 
常见的丰度估计方法有Shannon, Chao1和Observed OTU和PD whole tree等。我最喜欢用Observed OTU结果为整数,但只有物种种类信息,没有丰度信息,数值范围一般为几百至几千不等,范围很大,与研究对象有关;大家最常用的Shannon index 数值为1-10左右的小数,是综合物种数量和丰度两个层面的结果;Chao1是根据出现1/2次的OTU来估算总体;还有PD whole tree是考虑物种进化关系权重,认为分类学上非常上近的物种存在一定相关性;详细计算方法见:Alpha diversity measures
 
示例1
这篇文章分析了水稻根不同区域的细菌组成,16S分析文章较系统的作品,两年被引用147次,推荐阅读 
图1.B 箱线图展示样品内的多样性(Alpha diversity)
- 图中元素解释

Y轴标签Estimaated species Richness代表估计的物种丰富度信息,刻度范围从0-2000可能代物OTU数量,高低对应物种丰富度即数量的高低;根据我的理解Y轴的刻度应为Observed OTU(即直接统计测序样品中按97%聚类16S的种类,虽然作者説是Shannon);
X轴将标签放在了上方(更常见位于下方),分别代表三个地区,作者采用按地区先分组,因为不同地区环境差异较大,一般先把主要差异因素分开;其次,这篇文章更关注的是水稻不同部分的微生物组,不是部分要在同一地点下进行比较才是单因素变化的分析;
右侧图例表示不同取样位置:从上到下分为土(Bulk Soil)、根际(Rhizosphere)、根表(Rhizoplane)和根内(Endosphere)四类,对应图中每个地区中箱体的不同颜色;
图中颜色箱体代表该组数据中间50%的分布区间,中间线为中位数,上下延长线端点分两种情况:如果范围小于1.5倍箱体则为最大或最小值;否则最远为1.5倍箱体长度的线。
图表意义:从不同地区看,可以看到多样性差别,代表土壤和环境条件可以影响微生物组;从取样的不同部分看,发现多样性差别极大,且不同地区有相同趋势;
图观察规律或结论:从根际-根表-根内,细菌的多样性逐渐下降的。不同地区的差别小于不同部分的差别。

 
示例2
这篇文章分析了白杨树不同区域的细菌组成和差异,16S分析中非常中规中矩,而且没有任何后续实验,但在今年还能发这么好的杂志,大家可以分析一下原因
 
图2. 箱线图展示细菌群体的Alpha多样性。四个箱体分别代表根际土(Rhizosphere soil)、根内生菌(Root endosphere)、茎内生菌(Stem endosphere)、叶内生菌(Leaf endosphere)。
- (A) 采用Observed OTUs方法估计OTU丰富度(richess),即有多少物种;
- (B) 采用Pielou方法估算OTU的均匀度(evenness),即各OTU相对丰度间关系;是一种常见enenness指数算法,计算方法是将Shannon-Wiener熵除以OTU数量的自然对数;一般生态学领域比较关注,功能研究者更关注最终的差异OTU;
- (C) 使用反向Simpson指数计算多样性(diversity),是mothor中的方法,来自dominance指数的变形,而dominance计算为每个OTU比例平方再求合,与shannon的方法类似,原理是想用一个数代表整体群体中每个OTU的数量和丰度信息(richness和evenness),我更常用Shannon方法;
- 差异分析:整体上使用ANOVA统计,存在显著差异,P<0.0001;图中字母代表组间组间Turkey两两比较的结果,相同字母的箱体代表组间无显著差异,而不同字母组间存在显著差异;有时会出现同一组出现2个字母的情况,是一种过渡状态,与这两个组均无显著差异。
- 图片优点:(A) Observed OTU数量展示使用了截断图,因为根际土中微生物数量是非常大的,而内生菌种类很少,使用截断图减少图中留白更加美观;不同种组织的颜色选用与实物相近,使人产生亲切感(根深棕,茎浅绿和叶深绿);
- 图片解读:根际土中细菌近千种;根中内生只有2-3百种(也有可能根没洗干净,技术上不容易区分根表还是根内);茎和叶百种左右(其中部分也可能只是来自于表面或污染);此外结果的排列给人传达了由外到内,由上到下有特种数量下降的趋势;
 
知识背景:主流的分析流程
 
1、PNAS作者使用QIIME分析流程;2010发表在Nature Method上,被引7689次,是目前比较主流的分析方法,而且持续的维护和创新,目前正在开发QIIME2
2、Microbiome作者的分析流程为mothur,2009年发表目前被近7000次;
3、另外主流的的软件是Usearch,2010年发表在Bioinformatics,目前引用4947次;原来只是一个小小的高速序列聚类和比对软件,目前被作者开发成了扩增子分析流程,其中的关于序列聚类的算法UPARSE由作者单枪匹马发表在Nature method上,被引1424次;其实QIIME的聚类和比对默认都是使用此软件,核心算法是目前的主流;推荐使用。 

优点:作者一直在更新;体积小巧;安装方便,依赖关系极少(安装过QIIME的应该都想哭);
缺点:64位版收费(这么好的软件,收费也值得买);部分功能还需使用QIIME脚本,估计将来可以全自己搞定,因为作者太强大

扩增子图表解读1箱线图:Alpha多样性的更多相关文章

  1. 扩增子统计绘图1箱线图:Alpha多样性

    绘制Alpha多样性线箱图 绘图和统计全部为R语言,建议复制代码,在Rstuido中运行,并设置工作目录为存储之前分析结果文件的result目录 # 运行前,请在Rstudio中菜单栏选择“Sessi ...

  2. R语言学习 - 箱线图(小提琴图、抖动图、区域散点图)

    箱线图 箱线图是能同时反映数据统计量和整体分布,又很漂亮的展示图.在2014年的Nature Method上有2篇Correspondence论述了使用箱线图的好处和一个在线绘制箱线图的工具.就这样都 ...

  3. 第六篇:R语言数据可视化之数据分布图(直方图、密度曲线、箱线图、等高线、2D密度图)

    数据分布图简介 中医上讲看病四诊法为:望闻问切.而数据分析师分析数据的过程也有点相似,我们需要望:看看数据长什么样:闻:仔细分析数据是否合理:问:针对前两步工作搜集到的问题与业务方交流:切:结合业务方 ...

  4. 箱线图boxplot

    箱线图boxplot--展示数据的分布 图表作用: 1.反映一组数据的分布特征,如:分布是否对称,是否存在离群点 2.对多组数据的分布特征进行比较 3.如果只有一个定量变量,很少用箱线图去看数据的分布 ...

  5. pandas 生成并排放置的条形图和箱线图

    1.代码 import numpy as np import pandas as pd import matplotlib.pyplot as plt # 生成数据,创建 DataFrame np.r ...

  6. pyhton中matplotlib箱线图的绘制(matplotlib双轴图、箱线图、散点图以及相关系数矩阵图))

    //2019.07.23 1.箱形图,又称为盒式图,一般可以很好地反映出数据分布的特征,也可以进行多项数据之间分布特征的比较,它主要包含五个基础数据:中位数,两个上下分位数以及上下边缘线数据 其中的一 ...

  7. Matplotlib数据可视化(6):饼图与箱线图

    In [1]: from matplotlib import pyplot as plt import numpy as np import matplotlib as mpl mpl.rcParam ...

  8. matplotlib学习日记(六)-箱线图

    (一)箱线图---由一个箱体和一对箱须组成,箱体是由第一个四分位数,中位数和第三四分位数组成,箱须末端之外的数值是离散群,主要应用在一系列测量和观测数据的比较场景 import matplotlib ...

  9. 一起来玩echarts系列(一)------箱线图的分析与绘制

    一.箱线图 Box-plot 箱线图一般被用作显示数据分散情况.具体是计算一组数据的中位数.25%分位数.75%分位数.上边界.下边界,来将数据从大到小排列,直观展示数据整体的分布情况. 大部分正常数 ...

随机推荐

  1. ubuntu update时发生错误

    The following packages have been kept back解决方案Ubuntu和Debian下更新软件包,在运行 sudo apt-get upgrade 有时会看到如下提示 ...

  2. 操作系统开发之——打开A20

    我们在上一篇文章提到.怎样制作Bootsect.当然,人总是贪婪的,制作完Bootsect又想着做Setup了,Setup主要工作是打开A20,进入保护模式,等等. 一.介绍A20 这是一个历史性问题 ...

  3. 【UI自动化方面】

    1.自动化执行失败如何排查故障. 答:1).查看log,错误原因.[log不详细的话,可以优化] 2).排查是否真的有bug,若不是bug查看是否是新版本引入了新的变更. 3).调试脚本看自己脚本是不 ...

  4. linux /proc/stat 文件说明

    /proc/stat 文件内容 # cat /proc/stat cpu 1411 1322 3070 1193539 2790 0 268 0 0 0 cpu0 472 658 787 297933 ...

  5. 【C++】双向线性链表容器的实现

    // 双向线性链表容器 #include <cstring> #include <iostream> #include <stdexcept> using name ...

  6. POJ 2367 Genealogical tree 拓扑题解

    一条标准的拓扑题解. 我这里的做法就是: 保存单亲节点作为邻接表的邻接点,这样就非常方便能够查找到那些点是没有单亲的节点,那么就能够输出该节点了. 详细实现的方法有非常多种的,比方记录每一个节点的入度 ...

  7. python 数据描述字符串转整数

    q3 = int(float(q3.replace('万', '')) * 10000)

  8. C++之内部类(内部类就是外部类的友元类,单向友元。只是内部类比友元类多了一点权限)

    1. 内部类的概念 如果一个类定义在另一个类的内部,这个内部类就叫做内部类.注意此时这个内部类是一个独立的类,它不属于外部类,更不能通过外部类的对象去调用内部类.外部类对内部类没有任何优越的访问权限. ...

  9. 布局技巧4:使用ViewStub

    多亏了<include />标签,在Android里,很容易就能做到共享和重用UI组件.在Android开发中,很容易就能创建出复杂的UI结构,结果呢,用了很多的View,且其中的一些很少 ...

  10. 【Poj3241】Object Clustering

    Position: http://poj.org/problem?id=3241 List Poj3241 Object Clustering List Description Knowledge S ...