topGO

前面我们讲过GO.db这个包，现在接着延伸topGO包，该包是用来协助GO富集分析

1）安装

if("topGO" %in% rownames(installed.packages()) == FALSE) {source("http://bioconductor.org/biocLite.R");biocLite("topGO")}

suppressMessages(library(topGO))

ls("package:topGO")

2）使用方法

该包主要有三个使用步骤：

2.1、Data preparation:准备数据集，用于构建 topGOdata.对象。

2.1.1、包括gene标识符(List of genes identiﬁers)及相应的分值gene scores(例如p值等)
2.1.2、差异表达基因list或经一定标准按照分值筛选的基因集用于后续分析(list of diﬀerentially expressed genes or a criteria for selecting genes
based on their scores)；
2.1.3、identifier和GO term间的map，即GOterm表:（gene-to-GO annotations ） ####例如测试文件中的geneid2go.map
2.1.4、GO的层级结构，由GO.db提供，目前这个包只支持GO.db提供的结构

goterm表示例（gene-to-GO annotations ）：

2.2、Running enrichment tests：进行富集分析，用任何可行的混合统计测试和方法来处理 GO拓扑结构(GO topology)

2.3、Analysis results：用 summary functions 和 visualisation tools对第二步进行统计和可视化

3）简单示例(guide)

3.1.1、准备输入文件

library(ALL)

data(ALL)

data(geneList)   ##文件1：基因list，

affyLib <- paste(annotation(ALL), "db", sep = ".")          #####"hgu95av2.db"

library(package = affyLib, character.only = TRUE)       ########GO term表

sum(topDiffGenes(geneList)     ###选择差异基因集，

3.1.2、构建 topGOdata对象(核心步骤)：

sampleGOdata <- new("topGOdata",

                     description = "Simple session",  ##topGOdata的描述，可选

　　　　　　　　        ontology = "BP",                 ##可指定要分析的GO term的类型，即BP、CC之类

                     allGenes = geneList,             ##基因identifier的原始列表

　　　　　　　　        geneSel = topDiffGenes,          ##geneSelectionFun联合作用，筛选出后续参与分析的基因

                     nodeSize = 10,                   ##富集的GO term辖下基因的最小数目，这里选择10.即最少10个

                     annot = annFUN.db,               ##提取gene-to-GO mappings 的对应关系

　　　　　　　         affyLib = affyLib)

sampleGOdata

3.2 Performing the enrichment tests

有了topGOdata对象，接下来就可以用来进行富集分析。这里用两种检验方法：Fisher’s exact test (基于 gene counts)和Kolmogorov-Smirnov like test (computes enrichment based on gene scores)。
其中用runTest函数来进行这些检验，该函数含有3个参数：第一个是topGOdata对象、第二个是algorithm(用于指定处理 GO graph structured的方法）、第三个是statistic(用于指定检验方法)

resultFisher <- runTest(sampleGOdata, algorithm = "classic", statistic = "fisher")   ##Fisher’s exact test

resultKS <- runTest(sampleGOdata, algorithm = "classic", statistic = "ks")  #Kolmogorov-Smirnov test,classic method

resultKS.elim <- runTest(sampleGOdata, algorithm = "elim", statistic = "ks")#Kolmogorov-Smirnov test, elim method

3.3 Analysis of results

当富集检验结束后，我们就可以分析并解析结果。

runTest()这个函数用来分析显著富集的 GO terms及其相应的p值。

allRes <- GenTable(sampleGOdata,                 ##之前构建的topGOdata实例

　　　　　          classicFisher = resultFisher,  ##生成GO graphde的方法

                  classicKS = resultKS,          ##生成GO graphde的方法

　　　　　          elimKS = resultKS.elim,        ##生成GO graphde的方法

                  orderBy = "elimKS",

　　　　　          ranksOf = "classicFisher",

　　　　　          topNodes = 10)                 ##这里显示前10个显著结果

用 score()函数来测评topGO结果对象中 GO term的 p-values ，并用散点图来说明。

pValue.classic <- score(resultKS)

pValue.elim <- score(resultKS.elim)[names(pValue.classic)]

gstat <- termStat(sampleGOdata, names(pValue.classic))

gSize <- gstat$Annotated / max(gstat$Annotated) * 4

plot(pValue.classic, pValue.elim, xlab = "p-value classic", ylab = "p-value elim",pch = 19, cex = gSize)

差看显著富集的GO terms在 GO graph中的分布.

showSigOfNodes(sampleGOdata, score(resultKS.elim), firstSigNodes = 5, useInfo = 'all')

4)实战

4.1 原始数据集的准备（上面的4个文件）

library(topGO)

library(ALL) ##准备数据集

data(ALL)    ##文件1：原始数据集

BPterms <- ls(GOBPTerm)

MFterms <- ls(GOMFTerm)

CCterms <- ls(GOCCTerm)

head(BPterms)

head(MFterms)

head(CCterms)

library(genefilter)   ##对原始数据进行过滤

selProbes <- genefilter(ALL, filterfun(pOverA(0.20, log2(100)), function(x) (IQR(x) > 0.25)))#数据清洗

eset <- ALL[selProbes, ]   ##数据清洗：这里去掉及其低表达的基因，及探针在每个样品中表达变化不大的的基因


myInterestingGenes <- sample(geneNames, length(geneNames) / 10) #文件二：经一定标准对p值等筛选获取感兴趣基因集用于后续分析
geneList <- factor(as.integer(geneNames %in% myInterestingGenes))
names(geneList) <- geneNames
str(geneList)

geneID2GO <- readMappings(file = system.file("examples/geneid2go.map", package = "topGO"))##文件三：goterm的map文件
str(head(geneID2GO))

GO2geneID <- inverseList(geneID2GO)  ###额外知识：用inverseList()函数实现gene-to-GOs与 GO-to-genes 之间的转换
str(head(GO2geneID))     ##

topGO的更多相关文章

10、差异基因topGO富集
参考:http://www.biotrainee.com/thread-558-1-1.html http://bioconductor.org/packages/3.7/bioc/ http://w ...
R: 修改镜像、bioconductor安装及go基因富集分析
1.安装bioconductor及go分析涉及的相关包 source("http://bioconductor.org/biocLite.R") options(BioC_mirr ...
20155205 2016-2017-2 《Java程序设计》第6周学习总结
20155205 2016-2017-2 <Java程序设计>第6周学习总结教材学习内容总结第十章在Java中,输入串流代表对象为Java.io.InputStream实例,输出串流 ...
20155318 2016-2017-2 《Java程序设计》第六周学习总结
20155318 2016-2017-2 <Java程序设计>第六周学习总结教材学习内容总结学习目标理解流与IO 理解InputStream/OutPutStream的继承架构理解 ...
20155328 2016-2017-2 《Java程序设计》第六周学习总结
20155328 2016-2017-2 <Java程序设计>第6周学习总结教材学习内容总结根据不同的分类标准,IO可分为:输入/输出流:字节/字符流:节点/处理流. 在不使用Inpu ...
20155339 2016-2017-2 《Java程序设计》第6周学习总结
20155339 2016-2017-2 <Java程序设计>第6周学习总结教材学习内容总结第十章串流设计 Java将输入/输出抽象化为串流,数据有来源及目的地,衔接两者的是串流对象 ...
20155224 2016-2017-2 《Java程序设计》第6周学习总结
20155224 2016-2017-2 <Java程序设计>第6周学习总结教材学习内容总结 Thread线程: 定义某线程后,要有 xxx.stard(); Thread.sleep( ...
20155237 2016-2017-2 《Java程序设计》第6周学习总结
20155237 2016-2017-2 <Java程序设计>第6周学习总结教材学习内容总结第十章输入与输出 InputStream与OutputStream 流(Stream)是对 ...
20155229 2016-2017-2 《Java程序设计》第六周学习总结
20155229 2016-2017-2 <Java程序设计>第六周学习总结教材学习内容总结第十章 Java中,输入串流代表对象为java.io.InputStream,输出串流代表对 ...

随机推荐

轻松理解execl系列函数
execl函数功能如下:启动一个可执行文件,并且对他进行传送参数.一些原型如下 #include <unistd.h> extern char **environ; int execl(c ...
Mysql 性能优化2 系统参数配置方法和文件系统
--------------------------------------------目录------------------------------------------------- • 关于 ...
学习笔记之XML
什么是QName - Benjieming_Wang的专栏 - CSDN博客 http://blog.csdn.net/Benjieming_Wang/article/details/5959961 ...
1010 Radix （25 分）
1010 Radix (25 分) Given a pair of positive integers, for example, 6 and 110, can this equation 6 = 1 ...
小项目，吃货联盟，java初级小项目，源代码
1:项目的实现效果.功能如图所示. 2:项目的源代码如下: import java.util.Scanner; /** * 吃货联盟订餐管理系统 * */ public class OrderingM ...
oracle共享与专用模式的动态转换及区别(转载)
一直没对专用于共享的互换搞清楚,找到了这篇文章 http://blog.csdn.net/tianlesoftware/archive/2010/06/26/5695784.aspx ,让我实践了一把 ...
php 流程控制switch实例
switch允许对一个标量(表达式)的多个可能结果做选择. 语法: switch (expr) { case result1: statement1 break; case result2: stat ...
腾讯优图&港科大提出一种基于深度学习的非光流 HDR 成像方法
目前最好的高动态范围(HDR)成像方法通常是先利用光流将输入图像对齐,随后再合成 HDR 图像.然而由于输入图像存在遮挡和较大运动,这种方法生成的图像仍然有很多缺陷.最近,腾讯优图和香港科技大学的研究 ...
IDEA在编辑时提示could not autowire
IDEA在编辑时提示could not autowire 原创 2016年05月14日 10:53:38 28338 在开发中我再applicationContext-dao.xml中加入了mappe ...
20180129周一之学习PYTHON笔记【PYTHON2写个自动点击学习功能】
pyautogui.click(pyautogui.center(pyautogui.locateOnScreen('sy.png'))) #点击该截图一次 --------------------- ...

topGO

topGO的更多相关文章

随机推荐

热门专题