生物医学大数据-蛋白质基因组学:质谱注释

蛋白质组与其他组学的关系便是互为印证:蛋白质基因组学原本用于基因组注释,后面扩展到蛋白质与转录组或可变剪接之间关系,同时,蛋白质组依赖于基因组注释作为验证。许多研究未标明蛋白质基因组学,而是归属于对应的组学。

蛋白质基因组学现存问题:

基因组注释方法:1.Denovo。2.与转录组相应证。3.与基因组数据库同源比对。

基因组注释问题:

对于特定结构:

  1. 起始位点定位信号难以确定
  2. 确定promoter调控结合位点,错误率高
  3. 终止位点不被注释
  4. 可变剪接预测和确认上需要更多基因组的训练数据,使用denovo可以全部预测出来,但是用内含子和外显子仅能预测60%。

对于基因组的常规部分:

  1. 因为二代reads短所以难拼接
  2. 以前是鉴定已经存在的基因组,现在是未知物种的genome
  3. 同类数据不同处理有不同结果
  4. 人员水平不齐

对于蛋白质组大量质谱数据没被充分解析,可能的原因是

  1. 蛋白质多种修饰
  2. 搜索引擎差异
  3. 其它电荷没鉴定
  4. 数据库数据不足

没有充分解析造成许多没鉴定出来的数据,这些数据有可能是

  1. 噪音
  2. 实验污染,通过加入污染蛋白证实这部分是实验污染,当然鉴定出来之后也会舍弃这部分,对于该部分问题需要改进质控方法。
  3. 产生混合图谱(即多肽段在同一个图谱)或者融合肽段
  4. 在已知信息库中未收录的蛋白,即新蛋白

蛋白质基因组学的作用:

1.修正基因模型,即增加新注释,增加新肽段2.反过来由新肽段增加新基因

蛋白质基因组学需要提高的方法

蛋白质实验方面:

  1. 提高分离技术使蛋白质分的开
  2. 提高富集技术使得蛋白质量变大
  3. 高精度仪器
  4. 提高样本多样性,收集来源于不同时间空间的样本

数据库及数据处理方面:

常规部分存在的问题是大数据库存有大量噪音和相似,数据六位翻译结果搜索空间和denovo差不多。可以通过限制外显子大小,保留高分和正负库方法改进。质量评估时采用多段鉴定。假阳性高,动态范围宽,难鉴定可变剪接(可变剪接来源于denovo大数据库),重拼接假阳性高。

搜索速度方面:

质量过滤低质量、图谱聚类、去重或计算机并行的方法改良检索速度。

新方法:

加入RNAseq比对多重验证。

分成亚细胞组分多种方法鉴定。

体外转录翻译来验证

 

n-末端组学:使用对角线色谱查肽段末端

DNA和RNA数据辅助蛋白质鉴定

核糖体谱

Ribosome profiling|N-terminomics|蛋白质基因组学的更多相关文章

  1. 【蛋白质基因组】Proteogenomics方法介绍及分析思路

    概念 利用蛋白质组学数据,结合基因组数据(DNA).转录组数据(RNA)来研究基因组注释问题,被称为蛋白质基因组学."蛋白质基因组学"一词由Jaffe 等于2004 年首次提出,作 ...

  2. lncRNA研究

    ------------------------------- Long noncoding RNAs are rarely translated in two human cell lines. ( ...

  3. dbSNP|n SwissVar|n CanProVar|CHPP|mutation assessor|

    癌症蛋白质基因组学主要研究driver性质的突变,该突变有可能是转化为癌基因的突变.抑癌基因突变.药物位点突变和蛋白突变,可以使用mutation assessor 预测突变 突变导致疾病,修饰仅影响 ...

  4. ESTScan|EORF|Augustus|nr|PSM|

    生物信息学方法的目的有二:1.常规找鉴定已知蛋白2.鉴定新蛋白 控制数据库大小可以通过增多酶切使得大数据库灵敏性增高数据量变小: 分步搜索是对于经典方法使用后找不到的新蛋白进行补充挖掘,预测蛋白与高可 ...

  5. Mol Cell Proteomics. | Integration and analysis of CPTAC proteomics data in the context of cancer genomics in the cBioPortal (解读人:徐洪凯)

    文献名:Integration and analysis of CPTAC proteomics data in the context of cancer genomics in the cBioP ...

  6. 【Proteogenomis】工具评述

    2015年的综述文章,marker一下,供以后比较试用.蛋白质基因组学研究中的质谱仪与生物信息学方法. 针对蛋白质基因组学的分析研究,总结了质谱仪和蛋白质基因组学流程分析软件的选择,重点评述了常用的生 ...

  7. DIP|PCN|CoevDB|PID|Y2H|RosettaDock Serve|元基因组学|微生物多样性

    生命组学: 比较真核生物有关呼吸链的gene是比较核外编码基因,因为与呼吸有关的功能在线粒体上,线粒体位于核外.想要查看两种基因是否具有相互作用,可以对不同物种的编码ATP6 和ATP8的直系同源基因 ...

  8. Alterations of brain quantitative proteomics profiling revealed the molecular mechanisms of diosgenin against cerebral ischemia reperfusion effects(大脑的定量蛋白质组学揭示了薯蓣皂苷元对脑缺血再灌注效应的分子机制)

    文献名:Alterations of brain quantitative proteomics profiling revealed the molecular mechanisms of dios ...

  9. Deep Protein Methylation Profiling by Combined Chemical and Immunoaffinity Approaches Reveals Novel PRMT1 Targets (结合层析法和免疫沉淀法的蛋白甲基化的深度检测技术发现了PRMT1新的靶标蛋白)

    题目:Deep Protein Methylation Profiling by Combined Chemical and Immunoaffinity Approaches Reveals Nov ...

随机推荐

  1. malloc函数、calloc函数和free函数

    malloc函数和free函数 malloc函数原型:void *malloc(long NumBytes) malloc原型说明:mallco函数在堆分配了NumBytes个字节的内存空间,用来存放 ...

  2. 题解【[BJOI2012]算不出的等式】

    题目背景emmm \[\text{首先特判掉p=q时的情况(ans = }p^2-1\text{)}\] \[\text{构造函数}f(k) = \left\lfloor \frac{kq}{p}\r ...

  3. 【@ConfigurationProperties注解】Not Found The requested URL /spring-boot/docs/2.2.2.RELEASE/reference/html/configuration-metadata.html was not found on this server.

    <!-- 配置文件自动映射 --> <dependency> <groupId>org.springframework.boot</groupId> & ...

  4. 黑马IDEA版javaweb_2-2MySQL

    今日内容 数据库的基本概念 MySQL数据库软件 安装 卸载 配置 SQL 数据库的基本概念 1. 数据库的英文单词: DataBase 简称 : DB 2. 什么数据库? * 用于存储和管理数据的仓 ...

  5. python3.x设置默认编码(sys.stdout.encoding和sys.defaultencoding)

    查了一会资料得出的结论是如果你用的是python3.x,那么就最好别去设置sys.defaultencoding或者sys.stdout.encoding记住在需要编码的时候用encode,解码的时候 ...

  6. Asp.Net MVC主项目访问不到分离项目控制器的解决方案

    我在portal主项目外新建一个分离项目,控制器和Model都写在分离项目中,视图层写在portal中. 我更改了命名空间,引用了Dll,还是不能访问到控制器. 找到问题: 最后我发现是主项目port ...

  7. Qt QRect与QRectF的区别

    一直在与QRect和QRectF打交道.甚至在使用过程中因为QRect而出现了致命的Bug.因为QRect在数据存储表示上有一个很大的“历史遗留问题”! QRect Class   也就是说,对于QR ...

  8. Codeforces 1294C - Product of Three Numbers

    题目大意: 给定一个n,问是否存在3个互不相同的,大于等于2的整数,满足a*b*c=n 解题思路: 可以把abc其中任意两个看作一个整体,例如a*b=d,那么可以发现d*c=n 所以d和c是n的因子 ...

  9. HDU 1257最少拦截系统[动态规划]

    传送门:http://acm.hdu.edu.cn/showproblem.php?pid=1257                                                 最 ...

  10. 伯特兰·亚瑟·威廉·罗素[註 1],第三代羅素伯爵(英语:Bertrand Arthur William Russell, 3rd Earl Russell,1872年5月18日-1970年2月2日),OM,FRS,英国哲学家、数学家和逻辑学家,致力于哲学的大众化、普及化。[2] 在數學哲學上採取弗雷格的邏輯主義立場,認為數學可以化約到邏輯,哲學可以像邏輯一樣形式系統化,主張逻辑原子論。[3]

    一年假. 1920年7月,罗素申請了一年假; 這被批准了.他花了一年時間在中國和日本講學.对中国学术界有相当影响. 罗素说:  对爱情的渴望,对知识的追求,对人类苦难不可遏制的同情,是支配我一生的单纯 ...