Gene Ontology (GO) 注释

 Posted on 2017-06-11 |  In 生信

相似的基因在不同物种中,其功能往往保守的。显然,需要一个统一的术语用于描述这些跨物种的同源基因及其基因产物的功能,否则,不同的实验室对相同的基因的功能的描述不同,将极大限制学术的交流。而 Gene Ontology (GO) 项目正是为了能够使对各种数据库中基因获基因产物功能描述相一致的努力结果。

所谓的 GO,是生物学功能注释的一个标准词汇表术语(GO term),将基因的功能分为三部分:

  • 基因执行的分子功能(Molecular Function)
  • 基因所处的细胞组分(Cellular Component)
  • 基因参与的生物学过程(Biological Process)

不同的 GO term 通过有向无环图关联起来,如下图所示:

可以看出,不同的 GO term 间的关系由三类:is_apart_of 和 regulates

如 regulation of cell projection assembly 是一种生物学过程,是 regulation of cell projection organization 中的一类(is_a),还调节(regulatescell projection assembly;又如 cellular component assembly 是 celluar component biogenesis的一部分(part_of)。值得注意的是,这些关系都是有方向的,即反过来不成了,因而叫做有向无环图。

目前,GO 注释主要有两种方法:

  • (1)序列相似性比对(BLAST)
  • (2)结构域相似性比对(InterProScan)

这里以序列相似性比对为例,简单介绍 GO 注释的步骤:

  • 将基因序列与 swiss-prot 蛋白质数据库进行 BLAST (blastp 或者 blastx)比对,得到如下结果:

    c49_g1_i1 RNF13_MOUSE 52.00 50 23 1 17 166 240 288 2e-11 65.5
    c72_g1_i1 RS25_NEUCR 78.72 94 20 0 375 94 1 94 1e-32 116
    c75_g1_i1 POLX_TOBAC 45.28 53 29 0 162 4 457 509 1e-08 55.1
    c86_g2_i1 POLX_TOBAC 46.43 112 60 0 339 4 879 990 2e-30 120
    c91_g1_i1 BUB1_ARATH 55.71 70 28 2 61 264 289 357 1e-14 73.6
    c143_g1_i1 STL1_YEAST 31.98 172 85 4 6 518 407 547 6e-17 82.8
    c150_g1_i1 CST26_YEAST 37.63 93 38 3 223 5 142 234 6e-10 58.2
    c150_g2_i1 YHOE_SCHPO 42.67 75 41 1 227 3 54 126 5e-16 74.7
    c156_g2_i1 EXOL2_ARATH 47.17 53 28 0 299 141 229 281 6e-06 47.0
    c169_g1_i1 SPT5_ASPFU 60.98 82 31 1 20 262 725 806 2e-18 84.0

    其中,第二列 swiss-prot 蛋白质数据库序列的 ID(UniProtKB ID)。

  • 从 ftp://ftp.pir.georgetown.edu/databases/idmapping 下载 idmapping.tb.gz,该文件共有 22 列(tab 键分割):

    Q6GZX4 001R_FRG3G 2947773 YP_031579.1 81941549; 49237298 PF04947 GO:0006355; GO:0046782; GO:0006351 UniRef100_Q6GZX4 UniRef90_Q6GZX4 UniRef50_Q6GZX4 UPI00003B0FD4 654924 15165820 AY548484 AAT09660.1

    每一列的含义分别为 (可以看出,许多数据库已经和GO关联了):

    1. UniProtKB accession
    2. UniProtKB ID
    3. EntrezGene
    4. RefSeq
    5. NCBI GI number
    6. PDB
    7. Pfam
    8. GO
    9. PIRSF
    10. IPI
    11. UniRef100
    12. UniRef90
    13. UniRef50
    14. UniParc
    15. PIR-PSD accession
    16. NCBI taxonomy
    17. MIM
    18. UniGene
    19. Ensembl
    20. PubMed ID
    21. EMBL/GenBank/DDBJ
    22. EMBL protein_id
  • 根据文件 idmapping.tb.gz,将 blast 的结果,通过 UniProtKB ID,将第八列的 GO 号注释到对应的基因上。

    python UniProt2GO_annotate.py idmapping.tb.gz blastout outputfile

    结果如下:

    c93619_g2_i1 GO:0005506,GO:0016705,GO:0016021,GO:0004497,GO:0020037
    c93619_g2_i3 GO:0009733,GO:0020037,GO:0044550,GO:0016021,GO:0016020,GO:0016711,GO:0009813,GO:0005789,GO:0005506
    c70056_g1_i1 GO:0005737,GO:0019722,GO:0071889,GO:0005829,GO:0001077,GO:0006357,GO:0097720,GO:0000978,GO:0046872,GO:0005634,GO:0006874
    c93748_g1_i1 GO:0006729,GO:0008124
    c107639_g1_i1 GO:0009737,GO:0009738,GO:0005623,GO:0006970,GO:0009651,GO:0045454,GO:0009789
    c106424_g1_i1 GO:0043565,GO:0009555,GO:0003700,GO:0005634,GO:0009793,GO:0006351
    c66585_g1_i1 GO:0005737,GO:0003746,GO:0003924,GO:0005525
    c110618_g1_i8 GO:0015297,GO:0016021,GO:0015238
    c105249_g1_i5 GO:0046872,GO:0043161,GO:0005829,GO:0006915,GO:0032648,GO:0050691,GO:0005654,GO:0070936,GO:0061630,GO:0005634
    c134727_g1_i1 GO:0072546,GO:0030246,GO:0005783

拓展阅读:

Gene Ontology (GO) 注释的更多相关文章

  1. KEGG and Gene Ontology Mapping in Bioinformatic Method

    使用KOBAS进行KEGG pathway和Gene Ontology分析 Article from Blog of Alfred-Feng http://blog.sina.com.cn/u/170 ...

  2. gene Ontology (基因本体论)

    gene ontology为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找 ...

  3. GO | KEGG的注释是怎么来的?

    但凡是做过基因表达数据分析的(芯片.RNA-seq,scRNA-seq),肯定是跑过基因集功能注释和通路富集的,因为它是研究未知基因集的利器. 但跑过之后老板肯定会给反馈,通常得到的注释都是没有太多意 ...

  4. GO注释

    1.GO资源简介 由于生物系统的惊人复杂性和需要分析的数据集的不断增加,生物医学研究越来越依赖于以可计算的形式存储的知识.基因本体论(GO)项目为基因功能和基因产物的可计算知识提供了目前最全面的资源. ...

  5. 蛋白序列GO号注释及问题

    #===============================      版本1  ===============================================InterProSc ...

  6. GO 功能注释

    文章转载于 Original 2017-06-12 liuhui 生信百科 相似的基因在不同物种中,其功能往往保守的.显然,需要一个统一的术语用于描述这些跨物种的同源基因及其基因产物的功能,否则,不同 ...

  7. 转: Annovar 软件注释流程介绍

    第一步:下载Annovar 上Annovar官网下载(http://annovar.openbioinformatics.org/en/latest/user-guide/download/),现在要 ...

  8. Ontology Relations

    Overview The following page documents the relations used in the filtered GO ontology. For informatio ...

  9. 基因探针富集分析(GSEA)& GO & pathway

    http://blog.sina.com.cn/s/blog_4c1f21000100utyx.html GO是Gene Ontology的简称,是生物学家为了衡量基因的功能而而发起的一个项目,从分子 ...

随机推荐

  1. Entity Framework Code First (五)Fluent API - 配置关系 转载 https://www.cnblogs.com/panchunting/p/entity-framework-code-first-fluent-api-configuring-relationships.html

    上一篇文章我们讲解了如何用 Fluent API 来配置/映射属性和类型,本文将把重点放在其是如何配置关系的. 文中所使用代码如下 public class Student { public int ...

  2. Jenkins持续集成_01_Mac安装配置

    前言 Jenkins是一款开源 CI&CD 软件,用于自动化各种任务,包括构建.测试和部署软件.在自动化测试中,用来持续集成,跑定时任务进行定时自动化监测.更详细介绍可查看jenkins官网: ...

  3. sts测试流程

    测试目的: 测试安全补丁打上了没 测试前提: 1.发货版本,user debug版本,相应安全补丁已合入,测试工具与安全补丁是对应的 2.selinux:Enable 3.连接ADB,stay awa ...

  4. SAT算法

    今早用微云打的笔记...头大 我惊,这不是可爱的离散吗?! 建个有向图G,(Xi+Yi)加两边表示( ¬Xi+Yi)(Xi+ ¬Yi) 每个点(eg:A)加上 ¬A 下图为:(A->B)·( ¬ ...

  5. 网络流强化-UVA10480

    做这道题,自己先是想了好几种找被割的边的方法——都被否决了. 后来发现是最小割:只要一条边的两端在不同的点集里面就代表是被割掉的满流边(这些满流边的流量和等于最大流的流量与最小割的权值和). 但是之前 ...

  6. MySQL 查询语句--------------进阶7:子查询

    #进阶7:子查询 /* 含义: 出现在其他语句中的select语句,称为子查询或者内查询 外部的查询语句,称为主查询或外查询 分类: 按照子查询出现的位置: select后面:只支持标量子查询 fro ...

  7. Invalid column name on sql server update after column create

    问题:新建一个测试表xx as code into xx select * from xx 给这个表添加一个列val, val列不允许为空,将表中已有的数据val值更新为1 alter table x ...

  8. mybatis全局配置mybatis-config.xml

    大部分时候,我们都是在Spring 里面去集成MyBatis.因为Spring 对MyBatis 的一些操作进行的封装,我们不能直接看到它的本质,所以先看下不使用容器的时候,也就是编程的方式,MyBa ...

  9. init函数和匿名函数

    init函数: 基本介绍: 每一个源文件都可以包含一个init函数,该函数会在main函数执行前,被Go运行框架调用,也就是说init会在main函数前被调用. 案例说明: //init函数,通常可以 ...

  10. maven 配置阿里云中央仓库

    一.修改maven根目录下的conf文件夹中的setting.xml文件 <mirror> <id>alimaven</id> <name>aliyun ...