文献名:Multi-batch TMT reveals false positives, batch effects and missing values (多批次TMT定量方法中对假阳性率,批次效应,以及缺失值的研究)

期刊名:Molecular & Cellular Proteomics

DOI:10.1074/mcp.RA119.001472

Online:https://www.mcponline.org/content/early/2019/07/22/mcp.RA119.001472

单位:英国邓迪大学

摘要:

在蛋白质组定量领域,目前已经有多种蛋白定量方法,有标定量的TMT,ITRAQ,IBT等等,无标定量DIA,pSMART,Boxcar等等,各个方法各有优劣,标记的定量方法优点是定量相对准确,数据分析容易,不依赖预先建库,然而缺点是通量低,费用高。无标定量方法优点是通量高,无需同位素标记试剂,相对费用低,操作简单,缺点是需预先建库,而且数据分析相对困难。在这篇文章中,作者就尝试使用多批次TMT的定量方法,阐述方法的缺失值,批次效应,假阳性率等的问题来探究其可行性。

研究背景:

文中采用的样本是诱导性多能干细胞(iPSC),作者采用了10标TMT技术,并用MS3的报告离子定量,并跑了24批样本,每批10个样本,包含1个质控样本和9个不同来源的样本,总共跑了(24批X9样本+1质控)=217个不同来源的样本,作者评估数据后发现在多批次TMT分析中缺失值有放大效应,在蛋白水平上存在,在肽段水平上放大效应还会增加,另一方面,在定量的准确性上,如果没有质控样本去矫正,TMT多批次定量的准确性无法保证。此外,实验中采用的细胞,有男女性别的差异,根据男性Y染色体特有肽段可以评估实验的假阳性率,在所有批次中都有男性特有的肽段在女性样本中被鉴定到,假阳性的确存在,并且值得探究。

研究结果:

1)缺失值:

在图1中,ab为24次批次中缺失值,92%的批次(蓝色的柱)中,蛋白水平的缺失值都小于1%,且他们的肽段水平的缺失值小于5%,只有一个批次(红色)蛋白的缺失值大于1.5%,肽段水平的缺失值为9%,在后续的数据分析中,这个批次被剔除。

在单批次分析中,缺失值相对较小,但是在多个批次一起分析的时候,缺失值放大了,如图cd,在5个批次的时候肽段的缺失值接近了40%,这就表明在多批次的时候,肽段的重现性较差,全都是因为有些肽段丰度较低导致的吗?作者进一步分析了蛋白鉴定的数量和相应的MS3的信号强度(如图2ab),最终得出结论,即使非低丰度的蛋白也无法在多批次和多样本中持续的被检测到。作者综上对肽段鉴定做了总结,大约50%的肽段能在<40%的批次中检测到

2)不同批次的CV:

曾有文章报到过TMT定量的CV比无标定量小三倍。但是多数研究只是在单批次的水平,而此次可以探究多批次的CV。作者计算了230个样本的log10 copy number来评估CV,如图3a,之前提到的缺失值异常的批次又被剔除,copy number 的计算方法推荐去看原文章。在单批次中蛋白CV值小于2.5%,在所有批次的230个样本中蛋白的的CV值为11.03%,是单批次的6.4倍。另外,大家普遍认为低丰度的蛋白会对CV产生较大的影响,于是作者还选取了23个control样本中丰度top100的蛋白计算了CV,如图3b,得到的结果是CV大于7.5。

两外,作者观察到一些批次中同时包含了健康的样本和罕见基因病的样本,而这些批次的CV值要比全部样本的CV值低10倍左右,作者表示这表明了比起TMT对数据的影响要小于样本本身的差异

最后,作者表示,copy number已经提供了第一步的normalization(这涉及了mann的一篇文章,推荐看下),但这不足以消除批次效应,在每个批次中加入质控样本仍然非常重要。使用质控样本去矫正,在所有细胞样本中和质控样本中的CV达到了2.96%。

3)假阳性率:

作者筛选了65条Y染色体特定表达的肽段分析假阳性率,结果很令人意外,在21次包含女性样本的批次中,都检测到了这些肽段,并且最低检测到的40%数量的Y染色体特定肽,21批的平均值为89%,具体如图4所示,作者表示这可能是二级共洗脱和三级报告离子干扰引起的。

三级报告离子的干扰主要是由TMT厂商生产的试剂不纯和实验错误引起的,二级共洗脱是由于在二级质谱的时候两个母离子质量非常接近,四极杆无法分开,因此会导致碎出来的报告离子不够准确因为假阳性率比较高。因为数据显示在女性的样本中出现了Y染色体特定肽,于是作者分析了Y染色体特定肽在男性和女性样本中丰度的差异,如图5a所示,结果显示,有的样本丰度差异巨大,如PT6379与PT6386男性比女性的比值分别为,17倍,65倍,有的样本差异就不是那么大,像PT7430与PT6391,比值分别为2.5倍与4.4倍,这样的假阳性率就是有很大的问题,而且不好解释。

最后作者指出,低丰度的肽段容易受到二级共洗脱的影响,但是报告离子干扰非常少甚至没有影响。

4)对TMT实验的建议与优化:

作者建议对于多批次的TMT实验,应在126C,127N标签内加入质控样本,能够最大化的避免三级报告离子干扰。

文章讨论:

文章通过使用IPSC的样本在多次批次的TMT上机,评估产出数据的质量来判定方法的可行性,并给出了建设性的建议,文章中提到TMT的实验方法在单批次中缺失值较少,但在多批次中会存在缺失值放大的问题,个人认为从理论上来讲共洗脱带来也假阳性也会在一定程度上减小了缺失值的问题,作者没有从这一方面分析。另一方面如果不采用三级定量,用二级定量的方法虽然能够提高样本的鉴定率,但是二级定量的方法带来的共洗脱干扰恐怕会更严重,定量的准确性更无法保证。关于批次效应的问题,作者表示在多批次TMT实验时,copy number虽然已经提供了第一步的均一化步骤,但是仍然不够有效,作者表示在每个批次中插入质控样本能够帮助均一化,使实验得出的数据更加接近样本真实的浓度。关于假阳性率高的问题,作者认为主要是二级共洗脱干扰导致的,之前nature method 报道了mann的EASI-tag的文章表示能做到无二级共洗脱干扰,但是只是6标而不是10标。最后作者表示这次实验高深度,多批次,多样本的实验能够对之后的蛋白质组学有所帮助。

最后,Thermo 的研发实力有目共睹,目前已经他们有了16标的TMT技术,标记定量的方法仍然在定量蛋白质组学方面仍然有举足轻重的作用,国内也有国产的16标的标记定量技术,那就是华大基因成功自研的16标IBT技术,而且价格更便宜,值得期待。

阅读人:胡丹丹

Multi-batch TMT reveals false positives, batch effects and missing values(解读人:胡丹丹)的更多相关文章

  1. Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);true positives;false positives;false negatives.

    Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);在信息检索(如搜索引擎).自然语言处理和检测分类中经常会使用这些参数. Precision:被检测出来的信息 ...

  2. 阅读笔记:Solving the “false positives” problem in fraud prediction

    刚读完一篇paper<Solving the “false positives” problem in fraud prediction>,趁热打铁,做个笔记. 文章下载链接:https: ...

  3. Deep Learning 27:Batch normalization理解——读论文“Batch normalization: Accelerating deep network training by reducing internal covariate shift ”——ICML 2015

    这篇经典论文,甚至可以说是2015年最牛的一篇论文,早就有很多人解读,不需要自己着摸,但是看了论文原文Batch normalization: Accelerating deep network tr ...

  4. Recall(召回率);Precision(准确率);F1-Meature(综合评价指标);true positives;false positives;false negatives..

    转自:http://blog.csdn.net/t710smgtwoshima/article/details/8215037   Recall(召回率);Precision(准确率);F1-Meat ...

  5. 陪你解读Spring Batch(一)Spring Batch介绍

    前言 整个章节由浅入深了解Spring Batch,让你掌握批处理利器.面对大批量数据毫无惧色.本章只做介绍,后面章节有代码示例.好了,接下来是我们的主角Spring Batch. 1.1 背景介绍 ...

  6. False Positives和False Negative等含义

    True Positive (真正, TP)被模型预测为正的正样本: True Negative(真负 , TN)被模型预测为负的负样本 : False Positive (假正, FP)被模型预测为 ...

  7. True(False) Positives (Negatives), 召回率和精度定义

    True Positive (真正, TP)被模型预测为正的正样本: True Negative(真负 , TN)被模型预测为负的负样本 : False Positive (假正, FP)被模型预测为 ...

  8. Untargeted lipidomics reveals specific lipid abnormality in nonfunctioning human pituitary adenomas 非靶向脂质组学揭示非功能人类脑垂体瘤中的特异性脂质 (解读人:胡丹丹)

    文献名:Untargeted lipidomics reveals specific lipid abnormality in nonfunctioning human pituitary adeno ...

  9. Proteomic Profiling of Paired Interstitial Fluids Reveals Dysregulated Pathways and Salivary NID1 as a Biomarker of Oral Cavity Squamous Cell Carcinoma (解读人:张聪敏)

    文献名:Proteomic Profiling of Paired Interstitial Fluids Reveals Dysregulated Pathways and Salivary NID ...

随机推荐

  1. 理解 Redux 中间件机制

    Redux 的 action 是一个 JS 对象,它表明了如何对 store 进行修改.但是 Redux 的中间件机制使action creator 不光可以返回 action 对象,也可以返回 ac ...

  2. 吴裕雄--天生自然 R语言开发学习:分类

    #-----------------------------------------------------------------------------# # R in Action (2nd e ...

  3. 烧钱时代终结!O2O还能玩啥花样?

    最终的最终,饱受亏损.烧钱玩补贴等争议的美团还是追随滴滴/快的.赶集/58的步伐,与大众点评愉快的在一起了!美团和大众点评作为O2O行业的领军企业,都因为不堪忍受持续地投入却不见回报的模式而不得不放低 ...

  4. WEB端缓存机制

    WEB端缓存机制 什么是WEB缓存 Web缓存是指一个Web资源(如html页面,图片,js,数据等)存在于Web服务器和客户端(浏览器)之间的副本.缓存会根据进来的请求保存输出内容的副本:当下一个请 ...

  5. pymongo bugfix后记

    有网友反馈py-mongo-sync同步异常,检查发现curosr[0]取查询结果第一个文档时报错"no such item for Cursor instance". 这里的逻辑 ...

  6. IDEA Java 类注释、方法注释模板(可实现自动参数使用生成)

    JAVA 类文件注释设置 设置地方: 模板 /** * <p> * $description * </p> * * @author Tophua * @since ${DATE ...

  7. Babel 配置用法解析

    Babel 配置用法解析 刚复工的时候我司业务太多了,我已不记得我们连续作战了多少天,最近算是有时间可以学习学习我的babel大宝贝了,上周末看了下babel的一些核心模块以及babel的一些配置,今 ...

  8. 使用Taiko + Gauge进行自动化测试(一)

    目录 初识Taiko 环境安装 尝试Taiko taiko 执行过程 结合Gauge编写用例 使用Gauge 总结 初识Taiko 先来了解一下什么是Taiko:"Taiko是一个免费的开源 ...

  9. 量化投资学习笔记37——《Python机器学习应用》课程笔记10

    用KNN算法来进行数字识别,还是用sklearn自带的digits数据集. coding:utf-8 KNN算法实现手写识别 from sklearn import neighbors from sk ...

  10. docker部署tensorflow serving以及模型替换

    Using TensorFlow Serving with Docker 1.Ubuntu16.04下安装docker ce 1-1:卸载旧版本的docker sudo apt-get remove ...