NCBI SRA数据预处理
SRA数据的的处理流程大概如下
一、SRA数据下载、
NCBI 上存储的数据现在大都存储为SRA格式。
下载以后就是以SRA为后缀名。
这里可以通过三种方式下载SRA格式的数据。
1.通过http方式,2.通过ftp方式,3.通过Aspera
Aspera可以在NCBI网站上下载。
参阅:http://www.ncbi.nlm.nih.gov/books/NBK47540/
二、SRA格式转换成FASTQ格式
./fastq-dump -A SRR058977 ~/project/yanzi/data/GEO/SRA/SRR058977.sra
fastq-dump可以在ncbi官方网站下载,这里面包含一系列的转换工具;
参阅:http://www.ncbi.nlm.nih.gov/books/NBK56560/
http://eutils.ncbi.nih.gov/Traces/sra/?view=software
转换成FASTQ,SFF,lllumina native,AB SOLiD native等格式;
另,转换FASTQ以后要转换成FASTA 命令如下:
awk '{if(FNR%4==1) print ">",$0; else if(FNR%4==2) print $0;}' a.fastq >a.fasta
————————----------------------------------------------------------------
以上部分为预处理部分:
当然我做的方向是比对方向,就可以用fasta做比对工作了。
………………………………………………………………………………………………………………………………………………………………………………………………
后面还可以做其他反面的研究:
3.去接头(此步要注意是否有接头,一般RNA-SEQ数据应该是没有接头的)
4.用tophat寻找可变剪切
tophat -r 42 -G genome.fa -o PF genomeIndex SRR058977.fastq
5.用cufflinks找不同组织中的差异
cuffdiff genomeAnnotation.gff ../BF/accept.bam ./accept.bam
来源:http://blog.sciencenet.cn/blog-565558-626137.html
…………………………………………………………………………………………………………………………………………………………
可能会用到的修改目录权限的linux命令
Linux改变分区权限(简单好用版)
原理:
1.在Linux和Unix世界里,一切都是以文件的形式存在的。文件夹是文件,文件是文件,设备也是文件。
2.分区在挂载后,会在 /media/ 下以文件夹的形式显现
3.chmod用于修改权限 而chmod ugo+rwx 用于给所有的用户和用户组添加所有的权限
步骤:
1.假设需要修改权限的分区名为x
2.挂载x
3.赋权
代码:
sudo chmod ugo+rwx /media/x
NCBI SRA数据预处理的更多相关文章
- NCBI SRA数据如何进行md5校验?
下了一些sra数据库中的公共数据,因为pretech和aspera不稳定,稍微大点的文件经常传断,部分文件我只能通过本地下载再上传. 那么问题来了,sra没有md5校验,我怎么知道我数据的完整性,尤其 ...
- NCBI下载sra数据(新)
今天要上NCBI下载sra数据发现没有下载的链接,网上查发现都是老的方法,NCBI页面已经变更,于是看了NCBI的help,并且记录下来新版的sra数据下载方法,要用NCBI的工具SRA Tool ...
- NCBI下载SRA数据
从NCBI下载数据本来是一件很简单的事情,但是今天碰到几个坑: 1.paper里没有提供SRA数据号.也没有提供路径: 2.不知道文件在ftp的地址,不能直接用wget下载 所以通过在NCBI官网,直 ...
- 用R包来下载sra数据
1)介绍 我们用SRAdb library来对SRA数据进行处理. SRAdb 可以更方便更快的接入 metadata associated with submission, 包括study, sa ...
- NCBI SRA数据库使用详解
转:https://shengxin.ren/article/16 https://www.cnblogs.com/lmt921108/p/7442699.html 批量下载SRA http://ww ...
- <二代測序> 下载 NCBI sra 文件
本文近期更新地址: http://blog.csdn.net/tanzuozhev/article/details/51077222 随着測序技术的不断提高.二代測序数据成指数增长. NCBI提供了S ...
- NCBI SRA数据库
简介 SRA数据库是美国国立卫生研究院(NIH)的高通量测序数据的主要归档,是国际核苷酸序列数据库协作(INSDC)的一部分,其中包括NCBI序列读取存档(SRA),欧洲生物信息学研究所(EBI)和D ...
- 借助 SIMD 数据布局模板和数据预处理提高 SIMD 在动画中的使用效率
原文链接 简介 为发挥 SIMD1 的最大作用,除了对其进行矢量化处理2外,我们还需作出其他努力.可以尝试为循环添加 #pragma omp simd3,查看编译器是否成功进行矢量化,如果性能有所提升 ...
- R语言进行数据预处理wranging
R语言进行数据预处理wranging li_volleyball 2016年3月22日 data wrangling with R packages:tidyr dplyr Ground rules ...
随机推荐
- 【UOJ #204】【APIO 2016】Boat
http://uoj.ac/problem/204 肯定要离散化的,先离散化出\(O(n)\)个取值区间. 设\(f(i,j)\)表示第\(i\)所学校派出的划艇数量在\(j\)区间中. \(f(i, ...
- bzoj4556: [Tjoi2016&Heoi2016]字符串 (后缀数组加主席树)
题目是给出一个字符串,每次询问一个区间[a,b]中所有的子串和另一个区间[c,d]的lcp最大值,首先求出后缀数组,对于lcp的最大值肯定是rank[c]的前驱和后继,但是对于这个题会出现问题,就是题 ...
- 「APIO2018新家」
「APIO2018新家」 题目描述 五福街是一条笔直的道路,这条道路可以看成一个数轴,街上每个建筑物的坐标都可以用一个整数来表示.小明是一位时光旅行者,他知道在这条街上,在过去现在和未来共有 \(n\ ...
- UOJ #30. [CF Round #278] Tourists
UOJ #30. [CF Round #278] Tourists 题目大意 : 有一张 \(n\) 个点, \(m\) 条边的无向图,每一个点有一个点权 \(a_i\) ,你需要支持两种操作,第一种 ...
- 【BJOI2014】大融合【LCT】
闲着没事写篇题解 传送门 LCT维护子树的模板题 树链剖分中,子树可以用dfs序维护.但LCT你总不可能动态维护dfs序啊 LCT之所以不能直接维护子树,是因为LCT只能维护它的重儿子.我们把这棵子树 ...
- python开发_tempfile
python中的tempfile模块,是为创建临时文件(夹)所提供的 如果你的应用程序需要一个临时文件来存储数据,但不需要同其他程序共享,那么tempfile模块来创建临时文件(夹)是个不错的选择 其 ...
- asp.net 去除数据中带有的html标签
1,在控制器中实现去除html标签的静态方法 //去除html标签 public static string ReplaceHtmlMark(object Contents) { string Htm ...
- jsoup-1.7.2.jar 包
org.jsoup.Jsoup; org.jsoup.nodes.Document; org.jsoup.nodes.Element; org.jsoup.select.Elements;
- 升压转换器 (Boost)
升压转换器 (Boost) 需要将输入电压转换为较高的输出电压时,升压转换器 (Boost)是唯一的选择. 升压转换器透过内部 MOSFET 对电压充电来达成升压输出的目的,而当 MOSFET 关闭时 ...
- 借助Maven为项目划分development,test,production环境
原文地址:http://melin.iteye.com/blog/1339060 很早学习rails的时候,rails在服务器启动的时候,通过参数可以切换不同运行环境.也许spring从rails吸取 ...