转载于 Original 2017-06-20 liuhui 生信百科

KEGG 数据库中,把功能相似的蛋白质归为同一组,然后标上 KO 号。通过相似性比对,可以为未知功能的蛋白序列注释上 KO 号。通过KEGG数据库的注释极大的方便我们进行生物学通路的研究,可以直接查看物种某条生物学通路上基因的存在情况。

最简单的方法是看公司给的KEGG注释或者直接下载本物种每个基因的注释结果(比如,植物Phytozome;动植物Ensemble),然后对应到自己的差异基因集里面。

当然如果自己的物种没有KEGG注释结果,那只能自己动手了!

截止到 2015 年 6 月 12 日,KEGG 数据库中共收录了 3,904 个完整的基因组。其中 304 个为真核生物,3,600 个为原核生物。在真核生物中,共有 299 个物种(一个物种可能不止一个基因组),分为 172 科,227 属;在原核生物中,共有 1,858 个物种,分为 809 属。

KEGG 对这些物种的基因序列构成了一个非冗余的 KEGG GENES 数据库;通过 BlastKOALA 和 GhostKOALA, 可对用户提交的蛋白质序列,与 KEGG GENES 数据库分别进行 BLAST 或 GHOSTX 相似性比对,为蛋白质序列注释上 K number,即 KO 号。其中,GHOSTX 比对和 BLAST 比对类似,能够检测到分歧度较大的同源序列(remote homologues),在速度上比 BLAST 大约快 100 倍,两者的区别是:

  • BlastKOALA:用于注释高质量基因组,只能提交 5,000 - 10,000 条蛋白质序列。

  • GhostKOALA:用于注释宏基因组,文件大小为 300 M 以内。

有了 KO 号,就可以重构 KEGG 数据库中的 KEGG pathways 及其他分子网络,然后进行其它分析。

这里以 BlastKOALA 为例,对蛋白质序列进行 KO 注释。

分析步骤如下:

  • 到这个网页:http://www.kegg.jp/blastkoala/

  • 上传 fasta 格式的蛋白质序列

选择物种所属的分类单元,如这里选择植物“plant”

选择一个数据库进行比对。这些数据库由 KEGG GENES 分别在种、属、科水平去冗余后生成。这里选“属”水平的真核生物,如下图右表所示,上传的蛋白质序列限制为 7,500 条序列。

填写自己的邮箱地址,并提交任务,开始分析

回跳转到这个界面,耐心等待即可

分析完成后,会收到邮件通知。

点击链接,返回如下结果。需要注意的是分析结果会在 7 天后删除,所以尽快将结果下载到本地。

在这个结果界面,可以查看 pathway 等信息。

Reference: Kanehisa, M., Sato, Y., and Morishima, K. (2016) BlastKOALA and GhostKOALA: KEGG tools for functional characterization of genome and metagenome sequences. J. Mol. Biol. 428, 726-731.

KEGG Pathway Anonatation的更多相关文章

  1. R获取指定GO term和KEGG pathway的gene list基因集

    clusterProfiler没有显性的接口,但是可以直接扣取clusterProfiler里的函数. 核心函数就是get_GO_data GO_DATA <- get_GO_data(&quo ...

  2. KEGG数据库的使用方法与介绍

    KEGG数据库的使用方法与介绍 KEGG的数据 KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系:基因组信息主要是从NCBI等数据库中 ...

  3. KEGG数据库

    参考:KEGG数据库中文教程 - 博奥  &[学习笔记]KEGG数据库 - 微信 学习一个技能最主要的事情你必须知道,那就是能通过它来做什么? KEGG数据库里面有什么? 如何查询某一特定的代 ...

  4. KEGG and Gene Ontology Mapping in Bioinformatic Method

    使用KOBAS进行KEGG pathway和Gene Ontology分析 Article from Blog of Alfred-Feng http://blog.sina.com.cn/u/170 ...

  5. GO 和 KEGG 的区别 | GO KEGG数据库用法 | 基因集功能注释 | 代谢通路富集

    一直都搞不清楚这两者的具体区别. 其实初学者搞不清楚很正常,因为它们的本质是相通的,都是对基因进行归类注释的数据库. 建议初学者自己使用一下这两个数据库,应该很快就能明白其中的区别. (抱歉之前没讲清 ...

  6. kegg富集分析之:KEGGREST包(9大功能)

    这个包依赖极有可能是这个:https://www.kegg.jp/kegg/docs/keggapi.html ,如果可以看懂会很好理解 由于KEGG数据库分享数据的策略改变,因此KEGG.db包不在 ...

  7. KEGG数据库介绍

    转载自https://mp.weixin.qq.com/s/pqbMXMkuqEXbLf31PTxGZQ KEGG简介 KEGG 数据库于 1995 年由 Kanehisa Laboratories ...

  8. 手把手教你看KEGG通路图!

    手把手教你看KEGG通路图! 亲爱的小伙伴们,是不是正关注代谢通路研究?或者你正面对数据,绞尽脑汁?小编当然不能让亲们这么辛苦,今天就跟大家分享KEGG代谢通路图的正确解读方法,还在迷糊中的小伙伴赶紧 ...

  9. DAVID 进行 GO/KEGG 功能富集分析

    何为功能富集分析? 功能富集分析是将基因或者蛋白列表分成多个部分,即将一堆基因进行分类,而这里的分类标准往往是按照基因的功能来限定的.换句话说,就是把一个基因列表中,具有相似功能的基因放到一起,并和生 ...

随机推荐

  1. Ubuntu下改变文件权限

    Ubuntu下改变权限 有问题,待解决!! 参考:修改linux文件权限命令:chmod 起因:init 0 指令能在普通用户下调用,很方! 指令 chmod 格式: chmod 000 xxx.x ...

  2. 【剑指offer】二叉搜索树转双向链表,C++实现

    原创博文,转载请注明出处! # 题目 输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表.要求不能创建任何新的结点,只能调整树中结点指针的指向. 二叉树节点的定义 struct TreeNod ...

  3. PDF文档过期时间/自毁设置

    不是很完美的方法,可以凑活着用: 切换到Pages预览页,右击页面选页面属性 切换到Action,选Run a Javascript,代码: // PDF JavaScript to make it ...

  4. 同一台电脑的多ssh 配置

    转载自:https://w3ctrain.com/2016/03/06/mutiple-ssh-key/ ps:此文基于你已经能够正常的生成sshkey 对于sshkey的功能这里就不多做介绍了,本文 ...

  5. apue 2ed 和 unp 3ed 环境配置

    网上虽然有很多配置攻略,但是依然会一头雾水,下面记录我的配置过程. OS. Ubuntu 10.04 LTS 5 首先下载APUE源代码(http://www.apuebook.com/src.tar ...

  6. CentOS 7.4中firewall防火墙详解和配置以及切换为iptables防火墙

    转载:https://blog.csdn.net/xlgen157387/article/details/52672988 一.firewall介绍 CentOS 7中防火墙是一个非常的强大的功能,在 ...

  7. bzoj 4811 由乃的OJ

    bzoj 4811 由乃的OJ 考虑树链剖分. 树剖后用一颗线段树维护一段连续区间,类似于一个函数,各位上进入 \(0/1\) ,输出的数字分别是什么.注意到最多只有 \(64\) 位,可以用一个 \ ...

  8. 20179223《Linux内核原理与分析》第九周学习笔记

    视频学习 进程调度与进程调度的时机分析 不同类型的进程有不同的调度需求 第一种分类: --I/O-bound:1.频繁的进行I/O:2.通常会花费很多时间等待I/O操作的完成 --CPU-bound: ...

  9. 静态分析工具PMD使用说明

    质量是衡量一个软件是否成功的关键要素.而对于商业软件系统,尤其是企业应用软件系统来说,除了软件运行质量.文档质量以外,代码的质量也是非常重要的.软件开发进行到编码阶段的时候,最大的风险就在于如何保证代 ...

  10. scrapy模拟浏览器爬取验证码页面

    使用selenium模块爬取验证码页面,selenium模块需要另外安装这里不讲环境的配置,我有一篇博客有专门讲ubuntn下安装和配置模拟浏览器的开发 spider的代码 # -*- coding: ...