前言 关于clusterProfiler这个R包就不介绍了,网红教授宣传得很成功,功能也比较强大,主要是做GO和KEGG的功能富集及其可视化.简单总结下用法,以后用时可直接找来用. 首先考虑一个问题:clusterProfiler做GO和KEGG富集分析的注释信息来自哪里? GO的注释信息来自Bioconductor,提供了19个物种的org类型的GO注释信息,如下表所示.Bioconductor中更多的注释包可参考http://www.bioconductor.org/packages/rel…
这个包依赖极有可能是这个:https://www.kegg.jp/kegg/docs/keggapi.html ,如果可以看懂会很好理解 由于KEGG数据库分享数据的策略改变,因此KEGG.db包不在能用,推荐KEGGREST包 But a number of years ago,KEGG changed their policy about sharing their data and so the KEGG.db package is no longer allowed to be curr…
输入数据格式 pathway = read.table("kegg.result",header=T,sep="\t") pp = ggplot(pathway,aes(richFactor,Pathway)) #Pathwy是ID,richFactor是富集的基因数目除以背景的基因数目 # 改变点的大小 pp + geom_point(aes(size=R0vsR3)) # 以基因的数目表示点大小 pbubble = pp + geom_point(aes(siz…
1.安装bioconductor及go分析涉及的相关包 source("http://bioconductor.org/biocLite.R") options(BioC_mirror="http://mirrors.ustc.edu.cn/bioc/") biocLite("DO.db", type = "source") biocLite("BiocUpgrade") biocLite('cluster…
何为功能富集分析? 功能富集分析是将基因或者蛋白列表分成多个部分,即将一堆基因进行分类,而这里的分类标准往往是按照基因的功能来限定的.换句话说,就是把一个基因列表中,具有相似功能的基因放到一起,并和生物学表型关联起来. 何为GO和KEGG? 为了解决将基因按照功能进行分类的问题,科学家们开发了很多基因功能注释数据库,.这其中比较有名的一个就是Gene Ontology(基因本体论,GO)和Kyoto Encyclopedia of Genes and Genomes(京都基因与基因组百科全书,K…
前言 一般我们挑出一堆感兴趣的基因想临时看看它们的功能,需要做个富集分析.虽然公司买了最新版的数据库,如KEGG,但在集群跑下来嫌麻烦.这时网页在线或者本地化工具派上用场了. DAVID DAVID地址 以前我会首选DAVID,原因是方便简单.有人说它数据库更新慢,不准确(据说被science点名批评了),也有人说它运行慢,数据库更新慢是硬伤,但我只是大概看下基因集的功能,总体结果不会差到哪里去.至于运行速度我反而觉得比其他工具更快. 使用方法: 注释结果有很多,挑自己感兴趣的数据库,我一般看G…
版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/devcloud/article/details/94549627 GO是Gene Ontology的简称,是基因功能国际标准分类体系.它旨在建立一个适用于各种物种的,对基因和蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准.GO分为分子功能(Molecular Function).生物过程(Biological Proc…
最近总是有需要单独对某一个类型的通路进行超几何分布的p值计算,这里记录一下python包的计算方法 使用scipy的stat里面的hypergeom.sf方法进行富集分析的p值计算 hsaxxxxx AA and Linoleic metabolism KEGG pathways Pathways KEGG (Homo sapiens (human)) 59 17 3586 141 3.32E-11 ------------ set in set background in background…
  image Gene Set Enrichment Analysis (GSEA) is a computational method that determines whether an a priori defined set of genes shows statistically significant, concordant differences between two biological states (e.g. phenotypes). 用GSEA做富集分析是非常简单的,结…
一个矛盾: GWAS得到的SNP做富集分析的话,通常都会有强的偏向性. co-localization of GWAS signals to gene-dense and high linkage disequilibrium (LD) regions, and correlations of gene size, location and function 数据库使用注意: 一次最多只能输入200-300个SNP SNP必须以rs id格式输入,否则基本不识别 SNPsnap: a Web-b…