题目:Clinically Applicable Deep Learning Algorithm Using Quantitative Proteomic Data

期刊:Journal of Proteome Research

发表时间:August 2, 2019

DOI:: 10.1021/acs.jproteome.9b00268

分享人:翁海玉

内容与观点:

本研究描述了一种优化的基于深度学习(DL)的胰腺癌诊断方法并测试了该方法的分类能力。

1、实验设计

1.1数据集构建:该方法使用1008个样本的选择反应监测-质谱(SRM - MS)数据集,SRM-MS在血浆样本中检测出34种多肽(由34个蛋白衍生而来)。数据集包括300个正常人样本(NC),109个胰腺癌良性样本(PB),49个其他良性样本(OB),149个其他癌症样本(OC),和401个胰腺癌样本(PDAC)。按照0.7:0.3的比例将数据集分为训练集(691 samples; 322 PDAC, 41 OB, 88 PB, and 240 NC)和测试集(317 samples; 79 PDAC, 8 OB, 149 OC, 21 PB, and 60 NC),保持内部比例不变。其中OC只在测试集中有,以确定是否构建的模型会受到癌症异质性影响。

为了算法能够表现出鉴别胰腺癌的能力,数据集被重新构建为控制组(NC+PB+OB+OC),病例组(PDAC)。

1.2 DL模型训练和参数优化:采用十倍交叉验证的方法对训练数据集进行处理,避免了抽样偏差。每次迭代从子训练数据集中随机抽取约622个数据点(691*0.9)输入模型;其余69个值(691*0.1)作为子测试数据集,用于评估模型中的误差,同时对每个选定的数据点(分层抽样)保持对照组和病例组的比例相等。为了构造该模型,我们采用逐步逼近的方法来减少测试所有可能特征集的计算量。

利用训练数据集对模型进行微调,优化参数。然后在独立的测试数据集上对训练后的模型进行测试,并对其分类性能进行评估。利用独立的测试数据集进一步验证了模型的性能。利用测试数据集的性能来指导参数的优化。为了减少样本选择偏差和模型过拟合的可能性,除了交叉验证外,还进行了bootstrapping验证。

训练和测试数据集使用v3.10.3.6版本的H2O软件包进行处理。DL方法对10个最重要的参数纪元数(number of epochs)、节点数和隐层数(number of nodes and hidden layers)、激活函数(activation function)、rho、epsilon、L1 & L2正则化(L1 & L2 regularization)、隐藏丢失率(hidden dropout ratio)、输入丢失率(input dropout ratio)、每次迭代训练样本(train samples per iteration)、最大w2(max w2)。同时进行网格搜索来优化每个参数的值。并使用每个参数的常用值对它们逐一进行了优化,以此确定重要参数。

1.3 五种传统机器学习模型参数优化:对在蛋白质组学应用最广泛的五种机器学习模型:随机森林(RF)、支持向量机(SVM),逻辑回归(LR),K近邻(KNN)和贝叶斯(NB)建模,训练和测试数据集的处理与DL方法相同。用网格搜索,对5种方法中的参数进行调优。

1.4 DL与传统模型比较:

采用了五种传统的模型性能指标:查全率、精密度、F1评分、精密度和工作特性曲线下面积(AUROC):

Recall= 

Precision= 

F1 score=  

Accuracy= 

AUROC通过测量这个图的recall和FDR来构建AUROC曲线,其中1.0表示完全分离,0.5表示随机分类。如图:

Figure 1 完整实验过程

2、结果

2.1 DL参数优化:10个参数中 epoch, activation function, epsilon, input dropout ratio影响DL模型的分类模型(Figure 2 ),如图,选择了AUROC最大时的值为参数值。

Figure 2 DL参数优化

2.2 DL与传统机器学习模型比较:

各个指标都有明显提升,如下图:

Figure 3 六个模型的性能参数柱状图

3、结论

研究结果表明,DL是蛋白组学数据生物标志物确认的有力工具。在临床实验室中,DL有提高疾病分类任务的标准化和内部可靠性的潜力。未来的工作应该优化其在临床环境中的表现,以充分利用DL方法作为临床工具。

4、讨论

虽然DL各个性能指标都远远高于传统方法,但其仍然存在耗时长,电脑硬件要求高,需要更多的特征和样本的数据集等局限,尤其受到质疑的是,DL是一个黑盒子,难以给出内部过程。但本文向我们展示了DL的潜力。相信DL预测不同群体的高精度的能力将产生全新的数据处理选项,支持和加强未来基于蛋白组学的生物标志物研究。

Journal of Proteome Research | Clinically Applicable Deep Learning Algorithm Using Quantitative Proteomic Data (分享人:翁海玉)的更多相关文章

  1. Journal of Proteome Research | Improving Silkworm Genome Annotation Using a Proteogenomics Approach (分享人:张霞)

    题目:Improving Silkworm Genome Annotation Using a Proteogenomics Approach 期刊:Journal of Proteome Resea ...

  2. Integrative Analysis of MicroRNAome, Transcriptome, and Proteome during the Limb Regeneration of Cynops orientalis (文献分享一组-翁海玉)

    文献名:Integrative Analysis of MicroRNAome, Transcriptome, and Proteome during the Limb Regeneration of ...

  3. Journal of Proteome Research | 人类牙槽骨蛋白的蛋白质组学和n端分析:改进的蛋白质提取方法和LysargiNase消化策略增加了蛋白质组的覆盖率和缺失蛋白的识别 | (解读人:卜繁宇)

    文献名:Proteomic and N-Terminomic TAILS Analyses of Human Alveolar Bone Proteins: Improved Protein Extr ...

  4. Journal of Proteome Research | SAAVpedia: identification, functional annotation, and retrieval of single amino acid variants for proteogenomic interpretation | SAAV的识别、功能注释和检索 | (解读人:徐洪凯)

    文献名:SAAVpedia: identification, functional annotation, and retrieval of single amino acid variants fo ...

  5. Journal of Proteome Research | iHPDM: In Silico Human Proteome Digestion Map with Proteolytic Peptide Analysis and Graphical Visualizations(iHPDM: 人类蛋白质组理论酶解图谱的水解肽段分析和可视化展示)| (解读人:邓亚美)

    文献名:iHPDM: In Silico Human Proteome Digestion Map with Proteolytic Peptide Analysis and Graphical Vi ...

  6. Journal of Proteome Research | Down-Regulation of a Male-Specific H3K4 Demethylase, KDM5D, Impairs Cardiomyocyte Differentiation (男性特有的H3K4脱甲基酶基因(KDM5D)下调会损伤心肌细胞分化) | (解读人:徐宁)

    文献名:Down-Regulation of a Male-Specific H3K4 Demethylase, KDM5D, Impairs Cardiomyocyte Differentiatio ...

  7. Journal of Proteome Research | Quantitative Subcellular Proteomics of the Orbitofrontal Cortex of Schizophrenia Patients (精神分裂症病人眶额叶皮层亚细胞结构的定量蛋白质组学研究)(解读人:王聚)

    期刊名:Journal of Proteome Research 发表时间:(2019年10月) IF:3.78 单位: 里约热内卢联邦大学 坎皮纳斯州立大学 坎皮纳斯州立大学神经生物学中心 卡拉博大 ...

  8. Journal of Proteome Research | Proteomic Profiling of Rhabdomyosarcoma-Derived Exosomes Yield Insights into Their Functional Role in Paracrine Signaling (解读人:孙国莹)

    文献名:Proteomic Profiling of Rhabdomyosarcoma-Derived Exosomes Yield Insights into Their Functional Ro ...

  9. Journal of Proteome Research | Global Proteomic Analysis of Lysine Succinylation in Zebrafish (Danio rerio) (解读人:关姣)

    文献名:Global Proteomic Analysis of Lysine Succinylation in Zebrafish (Danio rerio)(斑马鱼赖氨酸琥珀酰化的全球蛋白质组学分 ...

随机推荐

  1. 导致提前layout的常见情况(通过chrome浏览器自带的控制台可以看到)

    1.通过js获取DOM属性 2.增/删/DOM节点 3.改变浏览器窗口大小 4.改变字体 5.激活css伪类 6.修改DOM的属性,涉及到大小.位置等(该颜色不会激活提前的layout) 7.其他js ...

  2. –IDEA+Maven+JavaWeb+tomcat项目搭建(图文并茂,详细)

    一.创建Maven项目 1:如果刚打开IDEA,显示的是这个页面,我们直接单击 Create New Project(创建项目) 或者 File-> New-> Project 2:选中左 ...

  3. 测试工程师不懂AI,还有未来吗?

    阿里妹导读:近几年人工智能.机器学习等词漫天遍地,似乎有一种无AI,无研发,无AI,无测试的感觉.有人说:不带上"智能"二字,都不好意思说自己是创新.我们先暂且不评论对错,只探讨这 ...

  4. spring入门(14)

    AOP是一个新的专题,基础部分主要是入门 后续的五.六.七都属于AOP专题: 所以有必要对这三章要学什么有个全局的认识. 1 概要 1 什么是AOP及实现方式 介绍了AOP的用途,以及大致的实现方案 ...

  5. Openstack neutron学习

    最近在学习openstack neutron的东西,记录下自己的一些理解. 网络基础知识 Switches & Vlan交换机的作用是来连接设备,实现互通的.network host之间通过交 ...

  6. kettle_errot_karafLifecycleListenter

    使用kettle 6.1 通过命令行批量执行作业的过程中,发现偶尔有作业执行时间会变慢几分钟,查看日志发现改作业开始就报了一个错 报错之后才会继续下面的作业,虽然不影响最终作业执行结果,但也延误了一些 ...

  7. SetTimeout()多次运行函数后越来越快的问题

    问题原因很简单,但是由于代码逻辑问题,一直没有考虑到: 网上有个帖子说的很明白:原帖入口 假如你在0时刻点击了一下按钮,那么500ms时数字会跳一下,1000ms会再跳一下,依次类推,1500,200 ...

  8. PHP实现读取一个1G的文件大小

    需求如下: 现有一个1G左右的日志文件,大约有500多万行, 用php返回最后几行的内容. 1. 直接采用file函数来操作 or file_get_content() 肯定报内存溢出注: 由于 fi ...

  9. yum配置与使用

    yum的配置一般有两种方式,一种是直接配置/etc目录下的yum.conf文件,另外一种是在/etc/yum.repos.d目录下增加.repo文件. 一.yum的配置文件 [main] cached ...

  10. css3动画属性有哪些

    transition :   平衡过渡 transition是一种css里的一种过渡效果,完成过渡需要多少秒 .延迟几秒开始 ,过渡的速度(一般有 "linear 匀速"  和“e ...