转:https://shengxin.ren/article/16

https://www.cnblogs.com/lmt921108/p/7442699.html

批量下载SRA http://www.360doc.com/content/18/0428/15/48272598_749456477.shtml

 我的下载的数据在/home/username/ncbi/public/sra

SRA(Sequence ReadArchive)数据库是用于存储二代测序的原始数据,包括 454,Illumina,SOLiD,IonTorrent,Helicos 和 CompleteGenomics。除了原始序列数据外,SRA现在也存在raw reads在参考基因的比对信息。

根据SRA数据产生的特点,将SRA数据分为四类:

  • Studies-- 研究课题

  • Experiments-- 实验设计

  • Runs-- 测序结果集

  • Samples-- 样品信息

SRA中数据结构的层次关系为:Studies->Experiments->Samples->Runs.

  • Studies是就实验目标而言的,一个study 可能包含多个Experiment。

  • Experiments包含了Sample、DNA source、测序平台、数据处理等信息。

  • 一个Experiment可能包含一个或多个runs。

  • Runs 表示测序仪运行所产生的reads。

SRA数据库用不同的前缀加以区分:

    • ERP或SRP表示Studies;

    • SRS 表示 Samples;

    • SRX 表示 Experiments;

    • SRR 表示 Runs;

使用:

  搜索相关研究的疾病,选择相应数据集

点击第一个案例进入详细信息界面

Study详细信息页面

Experiments详细信息页面

Runs详细信息页面,选择要下载的Runs

3、下载数据

要下载SRA数据,我们需要先安装SRA Toolkit软件包,下载地址:

https://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

根据自己的环境下载相应的软件包。

主要包括:

  • CentOS 32/64

  • Ubuntu 32/64

  • MacOS 32/64

  • MS Windows 32/64

以CentOS为例:

1、下载安装:

wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz"

tar xzf sratoolkit.current-centos_linux64.tar.gz

2、运行下载

cd sratoolkit.2.5.7-centos_linux64/bin

./prefetch SRR2172038

下载完成后,会在你的工作主目录下生成一个ncbi的文件夹。

cd ncbi/public/sra

查看SRR2172038.sra数据

3、转换fastq

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump ./SRR2172038.sra

4、转换fasta

/sratoolkit.2.5.7-centos_linux64/bin/fastq-dump  --fasta ./SRR2172038.sra

批量下载SRA数据

1.新建文件,命令为prefetch_bash.sh   (感觉命名简单粗暴啊)

vi prefetch_bash.sh

#!/bin/bash

for id in  $(seq 1 5)    #记住该语法

do

  prefetch SRR35899${id}

done

3.给文件一个可执行权限

chmod +755 frefetch_bash.sh

4.添加环境变量或者将其move到/usr/bin即可

添加环境变量:

vi ~/.profile

export PATH=/home/lmt/biosoft/data:$PATH

保存之后需source .profile

5.利用prefetch_bash.sh批量下载所需的SRR文件

在终端输入:prefetch_bash.sh

下载的SRR数据默认存放在:/home/lmt/ncbi/public/sra里

NCBI SRA数据库使用详解的更多相关文章

  1. SAE上传web应用(包括使用数据库)教程详解及问题解惑

    转自:http://blog.csdn.net/baiyuliang2013/article/details/24725995 SAE上传web应用(包括使用数据库)教程详解及问题解惑: 最近由于工作 ...

  2. windows phone 8.1开发SQlite数据库操作详解

    原文出自:http://www.bcmeng.com/windows-phone-sqlite1/ 本文小梦将和大家分享WP8.1中SQlite数据库的基本操作:(最后有整个示例的源码)(希望能通过本 ...

  3. MySQL数据库优化详解(收藏)

    MySQL数据库优化详解 mysql表复制 复制表结构+复制表数据mysql> create table t3 like t1;mysql> insert into t3 select * ...

  4. 如何查看mysql数据库的引擎/MySQL数据库引擎详解

    一般情况下,mysql会默认提供多种存储引擎,你可以通过下面的查看: 看你的mysql现在已提供什么存储引擎:mysql> show engines; 看你的mysql当前默认的存储引擎:mys ...

  5. MySQL数据库备份详解

    原文:MySQL数据库备份详解 对于任何数据库来说,备份都是非常重要的 数据库复制不能取代备份的作用 比如我们由于误操作,在主数据库上删除了一些数据,由于主从复制的时间很短,在发现时,从数据库上的数据 ...

  6. ORACLE数据库备份与恢复详解

    ORACLE数据库备份与恢复详解 学习过程中的总结,有兴趣不妨看看,如果有不对的地方,高手不要留情!! Oracle的备份与恢复有三种标准的模式,大致分为两 大类,备份恢复(物理上的)以及导入导出(逻 ...

  7. NCBI SRA数据库

    简介 SRA数据库是美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)和D ...

  8. MySQL(二) 数据库数据类型详解

    序言 今天去健身了,感觉把身体练好还是不错的,闲话不多说,把这个数据库所遇到的数据类型今天统统在这里讲清楚了,以后在看到什么数据类型,咱度应该认识,对我来说,最不熟悉的应该就是时间类型这块了.但是通过 ...

  9. android 数据库操作详解

    请看郭大神的八篇专栏,包含sql语句  android封装的databasehelper 和郭大神自己的LitePal  三种使用详解 http://blog.csdn.net/column/deta ...

随机推荐

  1. java抽象类,接口与异常

    1.抽象类: 定义;包含一个抽象方法的类称称为抽象类,抽象类在class前使用adstract关键词修饰. 抽象方法;只声明未实现的方法称为抽象方法,使用adstract关键字声明该方法. 抽象类定义 ...

  2. Python学习---重点模块的学习【all】

    time     [时间模块] import time # print(help(time)) # time模块的帮助 print(time.time()) # 时间戳 print(time.cloc ...

  3. Directed Graphs

    有向图 Introduction 就是边是有方向的,像单行道那样,也有很多典型的应用. 点的出度指从这个点发出的边的数目,入度是指向点的边数.当存在一条从点 v 到点 w 的路径时,称点 v 能够到达 ...

  4. TCP握手建立与释放连接

    网络层次模型 TCP/UDP区别 UDP,在传送数据前不需要先建立连接,远地的主机在收到UDP报文后也不需要给出任何确认.虽然UDP不提供可靠交付,但是正是因为这样,省去和很多的开销,使得它的速度比较 ...

  5. Centos7 之目录处理命令(八)

    linux中 关于目录 有几个重要概念 一个是 / 根目录  还有一个当前用户的家目录 比如 root用户的家目录是 /root  普通用户的家目录是/home/xxx 下 root登录 默认家目录 ...

  6. JavaScript的DOM_通过计算后样式来获取

    虽然可以通过 style 来获取单一值的 CSS 样式,但对于复合值的样式信息,就需要通过计算样式来获取. DOM2 级样式,window 对象下提供了 getComputedStyle()方法.接受 ...

  7. 数据类型.md

    数据类型 整型 数据类型 含义(有符号) tinyint(m) 1个字节 范围(-128~127) smallint(m) 2个字节 范围(-32768~32767) mediumint(m) 3个字 ...

  8. Linux 循环遍历文件目录

    操作系统: Unbuntu 问题域:在一个文件目录下,嵌套有多个子目录,需要遍历这些子目录,并在子目录下进行相关操作,譬如:批量重命名,目录下的文件:又或者需要,设定工程目录(mvn versions ...

  9. BZOJ1369:[Baltic2003]Gem(树形DP)

    Description 给出一棵树,要求你为树上的结点标上权值,权值可以是任意的正整数 唯一的限制条件是相临的两个结点不能标上相同的权值,要求一种方案,使得整棵树的总价值最小. Input 先给出一个 ...

  10. 5、Android-跨程序共享数据--内容提供器

    Android数据持久化技术:文件存储.SharedPreferences存储.数据库存储 使用这些持久化技术保存的数据只能再当前的应用程序中访问 但是对于不同应用之间的可以实现跨程序数据共享的功能 ...