GEO Gene Expression Omnibus
GEO Gene Expression Omnibus 基因表达数据库
网址:https://www.ncbi.nlm.nih.gov/geo/
GEO的数据存储方式
GEO数据库具体存放四类数据:GSE、GDS、GSM、GPL
GEO Series Study GSE号(GSExxx)对应的是整个研究项目的系列的数据,可能会涉及不同平台。
GEO DataSet GDS号(GDSxxx)对应的是一个同一平台的数据集,这些包括包括从微整列和高通量序列技术生成的数据。
GEO Sample GSM号(GSMxxx)对应单一样本的数据信息,它只能是单一平台的数据
GEO Platform GPL号(GPLxxx)对应一个平台的信息,一般不接触
通常 GSE和GDS中会包含多个GSM数据
另外,GEO Profiles数据库是GEO的工作人员根据用户提交的数据整理后的数据,倾向于某个基因在不同数据集中的表达情况。
GEO数据检索与下载
GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索
R包的安装与下载数据
GEOquery 的官网 http://www.bioconductor.org/packages/release/bioc/html/GEOquery.html
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("GEOquery")
利用 GSE 号下载
通过阅读文献查找感兴趣的GSE号,下载对应的表达数据和平台信息等,可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE57820:
> library(GEOquery)> # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件> GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)利用GDS号下载
> GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)利用GSM号下载
利用GSM号下载的是单样本的表达数据,例如GSM1394594
> GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)利用GPL号下载
针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系,例如GPL10558:
> GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)参考
https://www.jianshu.com/p/0d32fd410bcf
GEO Gene Expression Omnibus的更多相关文章
- GEO(Gene Expression Omnibus):高通量基因表达数据库
Gene Expression Omnibus(GEO)是一个公共存储库,可以存档和自由分发由科学界提交的全套微阵列,新一代测序和其他形式的高通量功能基因组数据. 除数据存储外,还提供一系列基于Web ...
- MicroRNA in Control of Gene Expression: An Overview of Nuclear Functions 微RNA控制基因表达:核功能概述
MicroRNA in Control of Gene Expression:An Overview of Nuclear Functions微RNA控制基因表达:核功能概述 抽象:小的非编码RNA( ...
- 无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biological replicates
无生物学重复RNA-seq分析 CORNAS: coverage-dependent RNA-Seq analysis of gene expression data without biologic ...
- 32、Differential Gene Expression using RNA-Seq (Workflow)
转载: https://github.com/twbattaglia/RNAseq-workflow Introduction RNAseq is becoming the one of the mo ...
- 合并基因表达水平(merge gene expression levels, FPKM)
使用tophat和cufflinks计算RNA-seq数据的表达水平时,当一个基因在一个样本中有多个表达水平时需要合并它们的表达水平. This code is a solution to colla ...
- Datasets for Data Mining and Data Science
https://github.com/mattbane/RecommenderSystem http://grouplens.org/datasets/movielens/ KDDCUP-2012官网 ...
- 用GEOquery从GEO数据库下载数据--转载
https://www.plob.org/article/9969.html Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为 ...
- RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差异表达分析: 扩展评论和软件工具
RNA-Seq differential expression analysis: An extended review and a software tool RNA-Seq差异表达分析: 扩展 ...
- 使用limma、Glimma和edgeR,RNA-seq数据分析易如反掌
使用limma.Glimma和edgeR,RNA-seq数据分析易如反掌 Charity Law1, Monther Alhamdoosh2, Shian Su3, Xueyi Dong3, Luyi ...
随机推荐
- springMVC中controller层方法中使用private和public问题
楼主一直习惯使用public,偶尔手误也可能使用private,但是发觉也没啥区别,都能调用service层,注入bean. 后来做一个新项目时,发觉自己以前的写的部分功能报错,当时有点懵逼,,找了半 ...
- easydict的使用方法
easydict的作用:可以使得以属性的方式去访问字典的值 from easydict import EasyDict as edict a=['8',2,3]a=edict()a.f=99print ...
- linux 如何修改默认的FTP帐号或密码
wdlinux_lamp,wdlinux_lnmp的系统安装好后,默会创建一个FTP用户用户名是:wdlinux密码是:wdlinux.cn 如想修改密码或用户名,先找个ssh工具,有关ssh客户端的 ...
- Eclipse apk项目创建和项目构架
一.创建项目工程 设定名字 设定包名(每一台机器只有唯一的包名)下一步 根据设置进行选择 创建空项目 Finish即可创建 调节项目的字体 二.Eclipse 项目构架 Src 2. Gen R.ja ...
- linux-Windows文件上传Linux
使用Xshell5工具: 1.使用cmd在Windows上压缩文件 2.在Xshell5上使用SSH协议与Linux服务器建立连接 3.新建文件传输 4.切换到Linux文件目录 5.使用put命令进 ...
- idea操作maven时控制台中文显示乱码/maven项目启动方式
在idea中通过maven启动项目时,在前台显示数据库信息,没有中文乱码问题,在控制台中mybatis显示数据库的信息,中文显示乱码. 在程序中用 System.out.println 输出中文的时候 ...
- 离线环境下自动化部署python环境(含openssl)
遇到有项目要在内网环境下安装python项目,所以空余时写了自动化部署python环境和python项目的脚本,由于项目涉密,这里仅提供自动化部署python环境的shell脚本,包括openssl的 ...
- Ansible 常用模块(一)
一.Ansible简介 Ansible是新出现的自动化运维工具,基于python开发,集合了众多运维工具(puppet(ruby).cfengine.chef.func.fabric.)的优点,实现了 ...
- 没有rc.local的解决办法
转载请注明来源https://www.cnblogs.com/sogeisetsu/p/11395098.html linux 开机自启动 我是小白,最近在想如何使用linux开机自启动,有一个办法是 ...
- 性能测试基础---SQL基础
·数据库相关: ·范式:NF.关系型数据库的设计规则. 范式总计有6种: 1NF\2NF\3NF\BCNF\4NF\5NF ·范式的实现是从低到高的,比如说首先要实现的就是1NF,才能继续实现2NF, ...