SRA数据的的处理流程大概如下

一、SRA数据下载、

NCBI 上存储的数据现在大都存储为SRA格式。

下载以后就是以SRA为后缀名。

这里可以通过三种方式下载SRA格式的数据。

1.通过http方式，2.通过ftp方式，3.通过Aspera

Aspera可以在NCBI网站上下载。

参阅：http://www.ncbi.nlm.nih.gov/books/NBK47540/

二、SRA格式转换成FASTQ格式

./fastq-dump -A SRR058977 ~/project/yanzi/data/GEO/SRA/SRR058977.sra

fastq-dump可以在ncbi官方网站下载，这里面包含一系列的转换工具；

参阅：http://www.ncbi.nlm.nih.gov/books/NBK56560/

http://eutils.ncbi.nih.gov/Traces/sra/?view=software

转换成FASTQ，SFF，lllumina native，AB SOLiD native等格式；

另，转换FASTQ以后要转换成FASTA 命令如下：

awk '{if(FNR%4==1) print ">",$0; else if(FNR%4==2) print $0;}' a.fastq >a.fasta

————————----------------------------------------------------------------

以上部分为预处理部分：

当然我做的方向是比对方向，就可以用fasta做比对工作了。

………………………………………………………………………………………………………………………………………………………………………………………………

后面还可以做其他反面的研究：

3.去接头（此步要注意是否有接头，一般RNA-SEQ数据应该是没有接头的）

4.用tophat寻找可变剪切

tophat -r 42 -G genome.fa -o PF genomeIndex SRR058977.fastq

5.用cufflinks找不同组织中的差异

cuffdiff genomeAnnotation.gff ../BF/accept.bam ./accept.bam

来源：http://blog.sciencenet.cn/blog-565558-626137.html

…………………………………………………………………………………………………………………………………………………………

可能会用到的修改目录权限的linux命令

Linux改变分区权限（简单好用版）

原理：

1.在Linux和Unix世界里，一切都是以文件的形式存在的。文件夹是文件，文件是文件，设备也是文件。
2.分区在挂载后，会在 /media/ 下以文件夹的形式显现
3.chmod用于修改权限而chmod ugo+rwx 用于给所有的用户和用户组添加所有的权限

步骤：
1.假设需要修改权限的分区名为x
2.挂载x
3.赋权

代码:
sudo chmod ugo+rwx /media/x

NCBI SRA数据预处理的更多相关文章

NCBI SRA数据如何进行md5校验？
下了一些sra数据库中的公共数据,因为pretech和aspera不稳定,稍微大点的文件经常传断,部分文件我只能通过本地下载再上传. 那么问题来了,sra没有md5校验,我怎么知道我数据的完整性,尤其 ...
NCBI下载sra数据（新）
今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Tool ...
NCBI下载SRA数据
从NCBI下载数据本来是一件很简单的事情,但是今天碰到几个坑: 1.paper里没有提供SRA数据号.也没有提供路径: 2.不知道文件在ftp的地址,不能直接用wget下载所以通过在NCBI官网,直 ...
用R包来下载sra数据
1)介绍我们用SRAdb library来对SRA数据进行处理. SRAdb 可以更方便更快的接入 metadata associated with submission, 包括study, sa ...
NCBI SRA数据库使用详解
转:https://shengxin.ren/article/16 https://www.cnblogs.com/lmt921108/p/7442699.html 批量下载SRA http://ww ...
<二代測序> 下载 NCBI sra 文件
本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 随着測序技术的不断提高.二代測序数据成指数增长. NCBI提供了S ...
NCBI SRA数据库
简介 SRA数据库是美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)和D ...
借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率
原文链接简介为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升 ...
R语言进行数据预处理wranging
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...

随机推荐

PHP 笔记——String 字符串
1. 定义单引号括起来的字符串被原样输出. 双引号字符串中的变量被PHP解析为变量值. 2. 获取字符串长度 strlen(string $string): int 在utf-8下,汉字占3个字符, ...
ARC 058
所以为啥要写来着........... 链接 T1 直接枚举大于等于$n$的所有数,暴力分解判断即可复杂度$O(10n \log n)$ #include <cstdio> #inclu ...
[BZOJ4542] [JZYZOJ2014][Hnoi2016] 大数(莫队+离散化)
正经题解在最下面 http://blog.csdn.net/qq_32739495/article/details/51286548 写的时候看了大神的题解[就是上面那个网址],看到下面这段话观察题 ...
MySql - GROUP BY 和 HAVING关键字
本文主要针对GROUP BY 和 HAVING两个关键字进行分析使用测试表如下: 测试前,只知道GROUP BY 这个关键字的作用是根据一个字段进行分组,去重.HAVING对分组设置条件. 具体分组 ...
bzoj 1029 贪心
贪心的一种,维护一种尽可能优的状态(即不会比最优解差),将这种状态保持到最后. /*********************************************************** ...
树莓派（Debian）系统开启iptables的raw表实现日志输出
说明:可能Debian默认不开启iptables的raw表,所以无法通过其实现日志跟踪. 日志跟踪:http://www.cnblogs.com/EasonJim/p/8413563.html 解决方 ...
BZOJ 2301: [HAOI2011]Problem b （莫比乌斯反演）
2301: [HAOI2011]Problem b Time Limit: 50 Sec Memory Limit: 256 MBSubmit: 436 Solved: 187[Submit][S ...
RFID Reader ICs
http://www.advanide.com/readeric.htm Low Frequency Reader ICs Manufacturer Product Frequency ISO Com ...
eclipse的项目和配置文件 .project .cproject .classpath .metadata
eclipse CDT建立project后在project name对应的目录下面会生成.project和.cproject两个隐藏文件. eclipse java建立project后在projec ...
Druid 连接泄漏监测
当程序存在缺陷时,申请的连接忘记关闭,这时候,就存在连接泄漏了.Druid提供了RemoveAbandanded相关配置,用来关闭长时间不使用的连接.例如: 配置 <bean id=" ...

NCBI SRA数据预处理

Linux改变分区权限（简单好用版）

NCBI SRA数据预处理的更多相关文章

随机推荐

热门专题