使用 Docker 分析高通量测序数据】的更多相关文章

NGS基础 - 高通量测序原理 原创: 赑屃 生信宝典 2017-07-23 NGS系列文章包括NGS基础.转录组分析.ChIP-seq分析.DNA甲基化分析.重测序分析五部分内容. NGS基础系列文章包括高通量测序原理,测序数据获取和质量评估,常见文件格式解释和转换4部分. 本文 (高通量测序原理) 涉及测序文库构建原理.连特异性文库的构建方式和识别方法.测序簇生成过程.双端测序过程.测序接头产生.PCR duplicate.测序通量选择标准等.…
操作:需要用安装好的sratoolkit把sra文件转换为fastq格式的测序文件,并且用fastqc软件测试测序文件的质量 作业:理解测序reads,GC含量,质量值,接头,index,fastqc的全部报告,搜索中文教程 具体步骤 [1]SRA文件转换成fastq文件 -----单个文件转换 fastq-dump -- -O outputdir -A file1.sra -----多个文件批量转换 # .编写一个脚本 sra_to_fq.sh ` do fastq-dump -- -O ./…
高通量测序数据下机后得到了fastq的raw_data,通常测序公司在将数据返还给客户之前会做"clean"处理,即得到clean_data.然而,这些clean_data是否真的"clean"呢?首先,我们应该做一下质控.如果质控不合格,就需要一些处理,比如去接头.去除量的reads.(1)去除测序数据中的接头(用到的是fastx_toolkit里面的fastx_clipper工具): Usage: fastx_clipper [-h] [-a ADAPTER]…
二代测序原理: 1.DNA待测文库构建. 超声波把DNA打断成小片段,一般200--500bp,两端加上不同的接头2.Flowcell.一个flowcell,8个channel,很多接头3.桥式PCR扩增.每个DNA片段将在各自位置集中成束,每一束含有单个DNA模板的很多拷贝,目的:将碱基的信号强度放大,达到测序所需的信号要求.4.测序.边合成边测序.反应所需材料,dNTP的3’端特殊处理,不能继续反应,因此每次只能添加一个碱基,另外每个碱基有一种颜色.dNTP添加到链上后,所有未使用游离dNT…
可变剪接(alternative splicing),在真核生物中是一种非常基本的生物学事件.即基因转录后,先产生初始RNA或称作RNA前体,然后再通过可变剪接方式,选择性的把不同的外显子进行重连,从而产生不同的剪接异构体(isoform).这种方式,使得一个基因可产生多个不同的转录本,这些转录本分别在细胞/个体分化发育的不同阶段,在不同的组织中有各自特异的表达和功能,从而极大地丰富了编码RNA和非编码RNA种类和数量,进而增加了转录组和蛋白质组的复杂性. 可变剪接主要有以下五种常见的形式: 1…
本文转载自:https://blog.csdn.net/radianceblau/article/details/76180915 本系列导航: linux驱动由浅入深系列:高通sensor架构实例分析之一(整体概览+AP侧代码分析) linux驱动由浅入深系列:高通sensor架构实例分析之二(adsp驱动代码结构)linux驱动由浅入深系列:高通sensor架构实例分析之三(adsp上报数据详解.校准流程详解) 从adsp获取数据的方法分为同步.异步两种方式,但一般在实际使用中使用异步方式,…
Gene Expression Omnibus(GEO)是一个公共存储库,可以存档和自由分发由科学界提交的全套微阵列,新一代测序和其他形式的高通量功能基因组数据. 除数据存储外,还提供一系列基于Web的界面和应用程序,以帮助用户查询和下载存储在GEO中的研究和基因表达模式. GEO的数据储存方式 GEO数据库具体存放四类数据:GSE.GDS.GSM.和GPL. 一个GSE号(GSExxx)对应的是整个研究项目的系列的数据,可能涉及不同平台: 一个GDS号(GDSxxx)对应的一个同一平台的数据集…
通常我们下机得到的数据是raw reads,但是公司通常会质控一份给我们,所以到很多人手上就是clean data了.我们再次使用fastqc来进行测序数据质量查看以及结果分析. fastqc的操作: 1. FastQC使用 fastqc -f [bam | sam | fastq] -o [output] [filename1 filename2] 常用选项: -f --format:输入文件格式.[bam,sam,fastq文件格式] -o --outdir:输出文件夹指定 -t --thr…
sra文件转换为fastq格式 1 fastq-dump -h --split-3 也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略.如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq,*_2.fastq这样分开.如果还出现了第三个文件,就意味着这个文件本身是未成配对的部分.可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了.   --gzip 输出文件压缩成gzip格式(通常gzip仅用来压缩单个文件.多个文件的压缩归档通常是首先将这些文件合并成一个…
sra文件转换为fastq格式 fastq-dump -h --split-3 也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略.如果原文件中有两个文件,那么它就会把成对的文件按*_1.fastq,*_2.fastq这样分开.如果还出现了第三个文件,就意味着这个文件本身是未成配对的部分.可能是当初提交的时候因为事先过滤过了一下,所以有一部分数据被删除了.   --gzip 输出文件压缩成gzip格式(通常gzip仅用来压缩单个文件.多个文件的压缩归档通常是首先将这些文件合并成一个ta…