HISAT2,StringTie,Ballgown处理转录组数据

本文总阅读量次2017-05-26

HISAT2,StringTie,Ballgown处理转录组数据思路如下:

  1. 数据质控
  2. 将RNA-seq的测序reads使用hisat2比对
  3. samtools将sam文件转成bam,并且排序,为下游分析做准备
  4. stringtie对每个样本进行转录本组装
  5. stringtie 将所有样本的转录本进行合并 注意:此处的mergelist.txt是自己创建的
  6. 计算表达量并且为Ballgown包提供输入文件
  7. Ballgown的安装 分析,需提供一个分组信息;

0.数据质控(QC):
Ubuntu软件包内自带Fastqc,故安装命令apt-get install fastqc
fastqc命令:
fastqc -o . -t 5 SRR3101238_1.fastq.gz &
-o . 将结果输出到当前目录
-t 5 表示开5个线程运行
(四个样本,双端测序,要分别对八个fastq文件执行八次)

1.将RNA-seq的测序reads使用hisat2比对
准备软件:
安装HISAT2
下载地址:
http://ccb.jhu.edu/software/hisat2/downloads/
wget http://ccb.jhu.edu/software/hisat2/downloads/hisat2-2.0.0-beta-Linux_x86_64.zip -P ./
解 压 缩:
unzip hisat2-2.0.0-beta-Linux_x86_64.zip

准备文件:

  1. 参考基因组序列;genome (chr.fa)
  2. 参考基因组的注释文件;genes (chr.gtf)
  3. Hisat2索引文件;indexes (chr_tran.1.ht2)
  4. 测序数据;samples (chr_1.fastq.gz, chr_2,fastq.gz;样本表型信息 与 样本列表)

下载人类参考基因组和注释文件:
1.1 人类参考基因组:Hisat2官网上有Ensemble GRCh38的基因组索引, 链接:http://ccb.jhu.edu/software/hisat2/index.shtml
1.2 注释文件:下载自ensemble数据库ftp://ftp.ensembl.org/pub/release-86/gtf/homo_sapiens
1.3 索引文件的创建:从gtf文件中构建索引,命定如下:
extract_exons.py hg19.annotation.gtf > exons.txt
extract_splice_sites.py hg19.annotation.gtf > splicesites.txt

创建索引另外一种方法:
hisat2-build [options]*<reference_in><ht2_base>

<reference_in>:用于指定参考基因组;

<ht2_base>:用于指定生成的索引文件的基名;

./hisat2-2.0.0-beta/hisat2-build -f ucsc.hg19.fasta –ss splicesites.txt –exon exons.txt -p 7 ./ucsc.hg19

#添加–ss和–exon选项后,需要很大的内存,build 人基因组的话需要200G RAM,如果没有这么大内存,不要添加这两个选项,但要在后续运行hisat时添加 –known-splicesite-infile选项(见下文)
如hisat2-build -f ucsc.hg19.fasta -p 7 ./uscs.hg19 ##大概需要一小时二十分钟

(1). 比对,生成bam文件:“将RNA-seq的测序reads使用hisat2比对对参考基因租组”
hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam -t

hisat2 -q -x ./ucsc.hg19 -1 reads_1.fastq -2 reads_2.fastq -S alns.sam –known-splicesite-infile splicesites.txt -t

-x :用于指定参考基因组所对应的索引文件;

-1, -2: 用于指定测序 Reads 所在的文件;

-S:用于指定存储比对结果的文件名;

-p: 用于指定线程数;

(2) Sort and convert the SAM files to BAM

samtools sort -@ 8 -o ERR188044_chrX.bam ERR188044_chrX.sam

-@:用于指定线程数;

-o:用于指定存储转化结果的文件名;

注:*.bam 格式的文件为二进制文件;

在-b 指定的文件夹下生成特定的文件
e2t.ctab
e_data.ctab
i2t.ctab
i_data.ctab
t_data.ctab
e即外显子、i即内含子、t转录本;
e2t即外显子和转录本间的关系,
i2t即内含子和转录本间的关系,
t_data即转录本的数据

(3) assemble and quantify expressed genes and transcripts

stringtie -p 8 -G chrX_data/genes/chrX.gtf -o ERR188044_chrX.gtf -l ERR188044 ERR188044_chrX.bam

-G :用于指导组装过程的参考注释的文件;

-o:用于指定存储组装结果的文件名;

-l: 为转录本的ID指定前缀;

-p: 用于指定线程数;

(4) Merge transcripts from all samples:

stringtie –merge -p 40 -G chrX_data/genes/chrX.gtf -o stringtie_merged.gtf chrX_data/mergelist.txt

-G :用于指导组装过程的参考注释文件;

-o:用于指定存储组装结果的文件名;

-p: 用于指定线程数;

注: mergelist.txt 文件包含所有*.gtf 文件名的列表, 并且每个文件名占据一行。

(5) Examine how the transcripts compare with the reference annotation (optional)

./bin/gffcompare -r chrX_data/genes/chrX.gtf -G -o merged stringtie_merged.gtf

-r :用于指定参考的注释文件;

-o:用于指定存储结果的文件名的前缀;

-G:用于指定是否比较所有转录本(即使是冗余的);

(6) Estimate transcript abundances and create table counts for Ballgown

stringtie -e -B -p 48 -G stringtie_merged.gtf -o ballgown/ERR188044/ERR188044_chrX.gtf ERR188044_chrX.bam

-e:用于指定是否仅为参考转录本估计表达丰度;

-B:用于指定是否输出 Ballgown table 文件;

-p: 用于指定线程数;

-G :用于指定已组装的注释文件;

-o:用于指定输出结果的文件名;

HISAT2,StringTie,Ballgown处理转录组数据的更多相关文章

  1. 转录组分析---Hisat2+StringTie+Ballgown使用

    转录组分析---Hisat2+StringTie+Ballgown使用 (2016-10-10 08:14:45) 转载▼ 标签: 生物信息学 转录组   1.Hisat2建立基因组索引: First ...

  2. hisat2+stringtie+ballgown

    hisat2+stringtie+ballgown Posted on 2016年11月25日 早在去年九月,我就写个博文说 RNA-seq流程需要进化啦!http://www.bio-info-tr ...

  3. HISAT2+StringTie+Ballgown安装及使用流程

    HISAT2+StringTie+Ballgown安装及使用流程 2015年Nature Methods上面发表了一款快速比对工具hisat,作为接替tophat和bowtie的比对工具,它具有更快的 ...

  4. NGS NGS ngs(hisat,stringtie,ballgown)

    NGS ngs(hisat,stringtie,ballgown) #HISAT (hierarchical indexing for spliced alignment of transcripts ...

  5. HISAT,sTRINGTIE,ballgown三款RNA-seq信息分析软件

    HISAT,sTRINGTIE,ballgown三款RNA-seq信息分析软件 2015年04月02日 11:35:47 夜丘 阅读数:8940 标签: 生物 更多 个人分类: 论文笔记   Bowt ...

  6. 转录组的组装Stingtie和Cufflinks

    转录组的组装Stingtie和Cufflinks Posted: 十月 18, 2017  Under: Transcriptomics  By Kai  no Comments 首先这两款软件都是用 ...

  7. 转录本组装软件StringTie的使用说明

    转录本组装软件StringTie的使用说明 StringTie 转录本组装软件StringTie的使用说明 转录组分析流程 HISTA + StringTie 组合.其Protocol 发表在Natu ...

  8. 转录组分析综述A survey of best practices for RNA-seq data analysis

    转录组分析综述 转录组 文献解读 Trinity cufflinks 转录组研究综述文章解读 今天介绍下小编最近阅读的关于RNA-seq分析的文章,文章发在Genome Biology 上的A sur ...

  9. 真核转录组(denovo/resequencing)及案例分析

    参考: 转录组文章的常规套路 文章解读:<Science>小麦转录组研究文章 转录组数据饱和度评估方法 Paper这个东西是多么的诱人,可以毕业,可以评职称,可以拿绩效. 现在的文章都是有 ...

随机推荐

  1. Winform 各种属性、方法、控件

    窗体是程序与用户交互的可视界面,窗体也是对象,窗体类定义了生成窗体的模版,实例化一个窗体类就产生了一个窗体. .NET框架类库的System.Windows.Forms命名空间中定义的Form类是所有 ...

  2. jquery 获取子元素的限制jquery

    今天练习jqueryAPI发现一个问题就是子元素如果采用nth-child,元素不同就获取不到,因此一个父元素下的子元素标签必须相同,如果不同第一个元素可以用这个方法实现,但是如果第二元素及以后如果出 ...

  3. 如何使用eclipse创建JAVA项目并写一个简单的HelloWorld

    输入项目名称  点击完成(Finish) 原文地址:https://blog.csdn.net/qq_36798713/article/details/79530056

  4. VM虚拟机 Centos7 lnmp环境 配置域名问题 windows浏览器访问的问题

    CentOS7  ip地址为 192.168.0.155 搭有 LNMP集成环境 执行 lnmp vhost add 配置服务器 指定目录的域名 mark.com 这时windows 机器的 浏览器想 ...

  5. 在 Android Studio 上调试数据库 ( SQLite ) (转)

    转自:http://c.colabug.com/thread-1781696-1-1.html 以前 Eclipse 时代,调试 SQLite 都是将数据库文件导出到电脑,然后再用软件打开查看.现在我 ...

  6. HDU4522 湫湫系列故事——过年回家

    传送门:点我 中文题面. 思路:拿spfa对卧铺和硬铺分别跑spfa,然后找两个的最短路.体感堆优化的dij也可以,不过spfa跑跑就过去了.有个细节是最后得用long long 存数据,其他的没啥. ...

  7. Unity3D游戏贪吃蛇大作战源码休闲益智手机小游戏完整项目

    <贪吃蛇大作战>一款休闲竞技游戏,不仅比拼手速,更考验玩家的策略. 视频演示: http://player.youku.com/player.php/sid/XMzc5ODA2Njg1Ng ...

  8. ECMAScript6的原型

    class Car { constructor(name){ this.name = name; } getName(){ } } class Ferrari extends Car{ constru ...

  9. f5时间设置

    方法一:NTP(推荐) 注:修改ntp server后大约需要10分钟左右才能同步成功. 查看ntp状态: 方法二:手动修改

  10. mysql学习2:模糊匹配查询like,regexp,in

    mysql模糊匹配查询like,regexp,in   摘要 内容比较简单,无摘要.   关键词 模糊查询  like  regexp  in  contact   正文 下图是示例用到的数据表信息 ...