在注释KEGG的时候,一直用到kaas,具体kaas是个什么东东,简单的总结一下吧。
    KEGG是由日本人搞的一个代谢图,收录基因和基因组的数据库,数据库可以分为 3大部分,基因数据库,

化学分子物质数据库,以及基于基因和化学分子物质相互关系而建立起来的代谢路径数据库,在KEGG数据库中,有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K标签,KEGG orthology (ko)代表的是某个代谢途径,k代表的是某个酶,c代表的是某个化合物,M代表的是某个模块,后面都会跟着编号。图中的正方形代表酶,圆形代表代谢物,5.4.4.4代表的是EC编号。而KAAS就是基于这么个数据库的一个快速检索的工具。The method is based on sequence similarities,bi-directional best hit information and some heuristics, and has achieved a high degree of accuracy when compared with the manually curated KEGG GENES database.
     对于酶来说,40-70%的序列相似性对于功能的预测有90%的准确性(Tian,W)。直系同源基于是来自于相同的祖先的基因分化,保存在不同的物种中的功能基因。在实际操作中,他们能够通过BBH(bi-directional best hit)来推测出来。因此,对在许多物种中的直系同源基因的鉴定是对新测序的基因功能预测的最便捷的途径。而KEGG 数据库就是通过KEGG Orthology (KO)系统来跨物种注释的一种机制。     

 
BHR(Bi-directional hit rate)    
    把要注释的geneome作为 query,和KEGG数据库中的reference进行blast比对,输出的结果(E>10)称为 homolog。同时把 reference作为query,把geneome作为refernce,进行blast比对。按照下面的条件对每个 homolog 进行过滤,Blast bits score > 60,bi-directional hit rate (BHR)>0.95。Blast Bits Score 是在 Blast raw score 换算过来的。
   BHR 是KEGG在Bi-directioanl Best Hit 的基础上进行修改的一个选项,BHR = Rf * Rr。
KEGG 在做注释的时候,并不是把所有的基因都作为 refernce,而是按照是否来自同一个基因组分成一个一个的小的 reference,分别进行 blast,假设有两个基因组 A 和B,含有的基因分别为 a1,a2,a3…an;b1,b2,b3…bn 先用A作为 query,B作为refer,进行blast比对,A中的基因a1对B中的基因进行遍历,和基因b1有最高的 bit score。现在用B作为refer,A作为query,进行blast比对,B中的基因b1对A中的基因进行遍历,如果bits score最高的是a1,则a1和a2就是一个BBH,但也有可能不是a1,只能成为 Single-directional hit rate。用刚才的A和B作为例子。Rf为用A作为query,B作为Refer,a1和B中的每一个基因都计算一次,R =Bits_score[a1-b1] /MaxBits_score[a1_b]。分子是a1和B中的一个基因的Bit_score,分母是a1和B中基因最大的bit_score。假设注释得到的a1和b1中的某个基因是BBH,则BHR一定等于1.当然,容许修改BHR参数<1。计算 KO assignment score后, 选择得分最高的 KO作为这个 gene的 KO。
 
使用:
输入FASTA格式的ORF或者EST即可。最好是aa序列。
 
有两种模式:the bi-directional best hit (BBH) information method, 和the single-directional best hit information method (SBH)。 best hit是指某个基因对于目标基因组中的某个基因匹配度最高,如果是bi-directional best hit,就是说明,这两个基因组互相匹配,都是匹配度最高的一组,俗话中的互相映射。原文的定义如下:Given two genes Xa and Xb from two genomes Ga and Gb, Xa and Xb are called a “bidirectional best hit (BBH)” if and only if recognizable similarity exists between them (in our case, we required Similarity Scores lower than 1.0 × 10−5), there is no gene Zb in Gb that is more similar than Xb is to Xa, and there is no gene Za in Ga that is more similar than Xa is to Xb.
一般是选择BBH,速度慢点,但是准确点吧
宏基因组的基因注释一般不选择 BBH模式,而是选择 SBH模式,因为得到的基因组大部分都不是完整的基因组,而且不同微生物的基因是混在一起,使BHR 的计算会受到很大的干扰(不是太理解哦,反正我用的是BBH)
 
最后生成的结果通过邮件发给你。可以下载,有图,有聚类,貌似是没有统计吧?


 
参考资料:文献KAAS: an automatic genome annotation and pathway reconstruction server
           MINT-基于 Linux 平台的宏基因组分析软件
           http://www.kegg.jp/kegg/document/help_pathway.html

kegg-kass注释--转载的更多相关文章

  1. GO | KEGG的注释是怎么来的?

    但凡是做过基因表达数据分析的(芯片.RNA-seq,scRNA-seq),肯定是跑过基因集功能注释和通路富集的,因为它是研究未知基因集的利器. 但跑过之后老板肯定会给反馈,通常得到的注释都是没有太多意 ...

  2. COG注释--转载

    http://blog.sina.com.cn/s/blog_670445240102uxwy.html 一 COG简介 COG,即Clusters of Orthologous Groups of ...

  3. IE中的条件注释(转载自网络)

    IE条件注释是微软从IE5开始就提供的一种非标准逻辑语句,作用是可以灵活的为不同IE版本浏览器导入不同html元素,如:样式表,html标签等.很显然这种方法的最大好处就在于属于微软官方给出的兼容解决 ...

  4. GO 和 KEGG 的区别 | GO KEGG数据库用法 | 基因集功能注释 | 代谢通路富集

    一直都搞不清楚这两者的具体区别. 其实初学者搞不清楚很正常,因为它们的本质是相通的,都是对基因进行归类注释的数据库. 建议初学者自己使用一下这两个数据库,应该很快就能明白其中的区别. (抱歉之前没讲清 ...

  5. MFC的PNG贴图按钮类(详细注释)

    MFC的PNG贴图按钮类(详细注释) (转载请注明出处) 作者:梦镜谷雨 萌新第二次写帖子,请多多包涵.末尾附上相应代码(PS公司繁体系统所以部分注释繁体请别介意). 因自带控件不美观,于是网上参考学 ...

  6. mysql / pgsql 使用sql语句查询数据库所有表注释已经表字段注释

    mysql使用sql语句查询数据库所有表注释已经表字段注释(转载)   场景: 1. 要查询数据库 "mammothcode" 下所有表名以及表注释 /* 查询数据库 ‘mammo ...

  7. 【R】clusterProfiler的GO/KEGG富集分析用法小结

    前言 关于clusterProfiler这个R包就不介绍了,网红教授宣传得很成功,功能也比较强大,主要是做GO和KEGG的功能富集及其可视化.简单总结下用法,以后用时可直接找来用. 首先考虑一个问题: ...

  8. pycharm设置开发模板/字体大小/背景颜色(3)

    一.pycharm设置字体大小/风格 选择 File –> setting –> Editor –> Font ,可以看到如上界面,可以根据自己的喜好随意调整字体大小,字体风格,文字 ...

  9. Centos7安装gitlab11 学习笔记之基础概念、部署安装、权限管理、issue管理

    一.基础介绍 1.简介 一个基于GIT的源码托管解决方案 基于rubyonrails开发 集成了nginx postgreSQL redis sidekiq等组件 2.安装要求 2g内存以上,有点占内 ...

随机推荐

  1. Emmet使用之HTML

    前言 前段时间在网上发现一个强大的好玩的东西,emmet,它可以方便我们前端开发者快速编写html和css.可以算是前端开发必备的一款利器,今天先总结一下用emmet写html,有时间再总结下css的 ...

  2. boost any库

    转: 原理 c++是一个强类型的语言,要实现一个万能类型可以考虑用void*来保存数据,然后用类型转换进行操作,如: class MyAny{ MyAny(void* input):content_( ...

  3. git基本配置

    用户信息 你个人的用户名称和电子邮件地址,用户名可随意修改,git 用于记录是谁提交了更新,以及更新人的联系方式. $ git config --global user.name "Donl ...

  4. 转Windows Phone8.1 获取手机唯一识别码

    转:http://www.dotblogs.com.tw/martinlau17/archive/2014/07/21/146020.aspx 因小弟比較懶,上次不小心 清空了所有文章 現在重寫了XD ...

  5. TortoiseGit上传项目到GitHub////////////////////////////z

    1.安装msysgit和TortoiseGit : 2.TortoiseGit 设置: (1).确保安装成功: (2).设置用户名和邮箱: 3.登陆github并进入设置页面: 4.添加 SSH Ke ...

  6. python staticmethod and classmethod方法

    静态方法无绑定,和普通函数使用方法一样,只是需要通过类或者实例来调用.没有隐性参数. 实例方法针对的是实例,类方法针对的是类,他们都可以继承和重新定义,而静态方法则不能继承,可以认为是全局函数. #h ...

  7. 诚信的cpm广告联盟该怎么选择

    诚信的cpm广告联盟该怎么选择?58传媒广告联盟介绍说,在目前我国的互联网行业发展中,新站长在不断的崛起,这也就意味着老站长在不断的衰败,而老站长的衰败并不是一天两天造成的,而是其长期积累形成的,将错 ...

  8. Android开发新手学习总结(六)——android开发目录结构【图文版】

    转载链接:http://bbs.itcast.cn/thread-87059-1-1.html?rss 既然已经搭建好环境了,那就对Android Studio中项目目录结构做个简单的了解了,这里以最 ...

  9. 【unity3d游戏开发脚本笔记之一:坐标系选择对物体运动的影响】

    时间:2016年9月24日17:38:21   作者:yexiaopeng 博客园     在unity3d的世界中,其坐标系可分为四种,世界坐标系-WorldSpace   本地坐标系-LocalS ...

  10. SSAS中事实表中的数据如果因为一对多或多对多关系复制了多份,在维度上聚合的时候还是只算一份

    SSAS事实表中的数据,有时候会因为一对多或多对多关系发生复制变成多份,如下图所示: 图1 我们可以从上面图片中看到,在这个例子中,有三个事实表Fact_People_Money(此表用字段Money ...