samtools faidx 命令处理fasta序列】的更多相关文章

samtools faidx 能够对fasta 序列建立一个后缀为.fai 的文件,根据这个.fai 文件和原始的fastsa文件, 能够快速的提取任意区域的序列 用法: samtools faidx input.fa 该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的长度必须相同, >one ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT >two another chro…
fai示例: Sc0000003 2774837 10024730 60 61 Sc0000004 2768176 12845826 60 61 Sc0000005 2756750 15660150 60 61 Sc0000006 2627294 18462857 60 61 Sc0000007 2472379 21133951 60 61 Sc0000008 2452568 23647548 60 61 NAME Name of this reference sequence LENGTH T…
samtools的说明文档:http://samtools.sourceforge.net/samtools.shtmlsamtools是一个用于操作sam和bam文件的工具合集.包含有许多命令.以下是常用命令的介绍 1. view view命令的主要功能是:将sam文件转换成bam文件:然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作 是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作):最后将排序或提取得到的数据输出为bam或sam(默认的)…
转自:samtools常用命令详解 samtools的说明文档:http://samtools.sourceforge.net/samtools.shtml samtools是一个用于操作sam和bam文件的工具合集.包含有许多命令.以下是常用命令的介绍 1. view view命令的主要功能是:将sam文件转换成bam文件:然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作):最后将排序或提取得到…
$ samtools faidx t1.fa && echo "faidx built" $ cat t1.fa.fai scaffold332 scaffold322 scaffold342 scaffold191 scaffold1157 $ samtools faidx t1.fa scaffold332 > scaffold332.fa $ >scaffold332 TTCTGTGAGATCTCTCTGAAAAATAATTGAGAAATCAAGATA…
今天运行tophat2的时候看到下面这条记录: [2016-02-27 11:40:03] Checking for reference FASTA file Warning: Could not find FASTA file /home/pub/database/Human/hg19/bowtie2_db/hg19.fa.fa [2016-02-27 11:40:03] Reconstituting reference FASTA file from Bowtie index Executi…
一.BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息.BED行有3个必须的列和9个额外可选的列. 每行的数据格式要求一致. 必须包含的3列: 1.chrom, 染色体名字(e.g. chr3, chrY) 2.chromStart, 目标区段在染色体起始位置,染色体第一个碱基的位置是0 3.chromEnd, 目标区段在染色体结束位置,染色体的末端位置没有包含到显示信息里面.例如,首先得100个碱基的染色体定义为chromStart =0 . chrom…
最近php7的消息铺天盖地, 忍不住想尝试下.星期天看了下语法, 写个小脚本练下手: 这个脚本读取fasta 文件, 输出序列的长度和GC含量: <?php $fasta = "test.fasta"; $meta = array(); $meta = parse_fasta($fasta); write_res($meta); function parse_fasta($fasta) { $meta = array(); $file_handle = fopen($fasta,…
Python 命令参数  print 命令 : #默认的print是有个 空格,和换行的 # print(sep= ' ') # print(end = '/n') a = 'sunjinchao' b = 'xianfangdi' # print(a,b) # print(a) # print(b) #输出:sunjinchao xianfangdi #输出:sunjinchao #输出:xianfangdi print(a,end = 'love ')#换行 print(b,a,sep =…
参数args 参数args可以是一个参数序列,也可以是一个单独的字符串.参数序列通常是首选的,因为它允许模块处理参数的转义和引号(例如,允许文件名中有空格). 如果传递参数序列,默认情况下,程序执行序列的第一个元素,后面所有的元素都作为参数. 如果传一个单独字符串,要么参数shell为True,要么字符串必须没有指定任何参数的可执行程序的名称. 所以,一般的搭配是参数序列和shell=False,字符串和shell=True. 参数shell shell参数设置是否在单独的shell中执行命令.…
常规方法 #! usr/bin/perl -w use strict; my $input=shift; my %hash; open IN,"<$input"; $/=">"; while(<IN>){ chomp; $hash{$_}=1; } foreach my $key(keys %hash){ print ">$key"; } close IN; Bioseq模块方法 #!/usr/bin/perl us…
目录 需求 实现 需求 已知某基因组序列,染色体或scaffold ID顺序不定,想要对其按数字排序. 原顺序: 想要的排序结果: 实现 使用bioawk,没有的话conda直接安装. bioawk -c fastx '{print}' old.genome.fa | \ sort -k1,1V | awk '{print ">"$1;print $2}' >new.genome.fa https://www.biostars.org/p/494201/…
samtools faidx 能够对fasta 序列建立一个后缀为.fai 的文件,根据这个.fai 文件和原始的fastsa文件, 能够快速的提取任意区域的序列 用法: samtools faidx input.fa 该命令对输入的fasta序列有一定要求:对于每条序列,除了最后一行外, 其他行的长度必须相同, >one ATGCATGCATGCATGCATGCATGCATGCAT GCATGCATGCATGCATGCATGCATGCATGC ATGCAT >two another chro…
1.解析路径获取文件名和目录名. 获取文件名      #awk解法:用“/”做分隔符,然后打印出最后的那一部分. resFile=`echo /tmp/csdn/zhengyi/test/adb.log | awk -F "/" '{print $NF}'` #官方解法(basename):Bash Shell本身提供了basename命令,可以直接获取路径名最后的文件名. resFile=`basename /tmp/csdn/zhengyi/test/adb.log`     获…
当测序得到的fastq文件map到基因组之后,我们通常会得到一个sam或者bam为扩展名的文件.SAM的全称是sequence alignment/map format.而BAM就是SAM的二进制文件(B取自binary). 那么SAM文件的格式是什么样子的呢?如果你想真实地了解SAM文件,可以查看它的说明文档.SAM由头文件和map结果组成.头文件由一行行以@起始的注释构成.而map结果是类似下面的东西: HWI-ST1001:137:C12FPACXX:7:1115:14131:66670…
http://blog.sciencenet.cn/blog-1469385-819498.html 文章目录 一.准备工作 二.流程概览 三.流程 首先说说GATK可以做什么.它主要用于从sequencing 数据中进行variant calling,包括SNP.INDEL.比如现在风行的exome sequencing找variant,一般通过BWA+GATK的pipeline进行数据分析. 要run GATK,首先得了解它的网站(http://www.broadinstitute.org/…
[怪毛匠子 整理] samtools学习及使用范例,以及官方文档详解 #第一步:把sam文件转换成bam文件,我们得到map.bam文件 system"samtools view -bS map.sam > map.bam"; #第二步:sort 一下 BAM 文件,得到map.sorted.bam system"samtools sort map.b/am map.sorted"; #第三步:创建一个关于bam的索引文件,我们得到一个map.sorted.b…
1)samtools简介--------------------------------------------------------------------------背景:前面我们讲过sam/bam格式,sam文件虽然是可读的文本文件形式,但是通常是非常大,因此一般会对其压缩来节省磁盘空间,且对于很多软件来说,相比于对sam文件,对bam文件进行处理更加有效.SAMtools 是一款优秀的用以解析.处理sam/bam格式文件的一种软件包工具.其详细的文档可以在其官网里面找到.它主要包含以下…
samtools的说明文档:http://samtools.sourceforge.net/samtools.shtml samtools是一个用于操作sam和bam文件的工具合集,包含有许多命令.以下是常用命令的介绍: view命令的主要功能: 将sam文件转换成bam文件:然后对bam文件进行各种操作,比如数据的排序(不属于本命令的功能)和提取(这些操作是对bam文件进行的,因而当输入为sam文件的时候,不能进行该操作):最后将排序或提取得到的数据输出为bam或sam(默认的)格式. bam…
参考资料: SAMtools(官网) SAM Spec v1.4 (SAM格式 说明书) (重要) samtools-1.3.1 使用手册 (SAMtools软件说明书) samtools常用命令详解(博客园) SAM格式定义(博耘生物) samtools使用方法(plob) 这个学习急不来,而且比对非常重要,先把上面的官方SAM/BAM格式说明文件看透`Sequence Alignment/Map Format Specification` SAMtools解决的问题 非常多序列(read),…
功能如下: 1.View 主要功能讲sam文件转位bam文件. 涉及的参数: -b 输出bam格式..默认是sam文件 -h 输出的sam文件带header..默认不带 -H 仅仅输出header -S 输入sam文件..默认bam文件 -u 输出bam文件不进行压缩..必须有-b参数 -c 输出比对上的数 -f 输出含有所有flag都reads -F 输出没有flag的reads..数字4代表改reads没有比对上,数字8表示mate序列没有比对上 -q 比对的最低质量值..一般20就可以 例…
samtools flagstat命令简介: 统计输入文件的相关数据并将这些数据输出至屏幕显示.每一项统计数据都由两部分组成,分别是QC pass和QC failed,表示通过QC的reads数据量和未通过QC的reads数量.以“PASS + FAILED”格式显示.还可以根据samtools的标志位显示相应的内容,但是这里不做讨论. 命令格式: samtools flagstat <in.bam> |<in.sam> | <in.cram> 运行flagstat命令…
准备测试文件 test.fq, 包含4条fastq 文件,碱基编码格式为phred64; @FC12044_91407_8_200_406_24 NTTAGCTCCCACCTTAAGATGTTTA +FC12044_91407_8_200_406_24 SXXTXXXXXXXXXTTSUXSSXKTMQ @FC12044_91407_8_200_720_610 CTCTGTGGCACCCCATCCCTCACTT +FC12044_91407_8_200_720_610 OXXXXXXXXXXXX…
[1] bedtools (https://github.com/arq5x/bedtools2) here is also bedtools (https://github.com/arq5x/bedtools2) getfasta. It uses Erik's code under the hood. $ cat test.fa >chr1 AAAAAAAACCCCCCCCCCCCCGCTACTGGGGGGGGGGGGGGGGGG $ cat test.bed chr1 5 10 $ be…
文件排序 seq: 产生一系列的数字; man seq查看其具体使用.我们这使用seq产生下游分析所用到的输入文件. # 产生从1到10的数,步长为1 $ seq 1 10 1 2 3 4 5 6 7 8 9 10 # 产生从1到10的数,步长为1,用空格分割 $ seq -s ' ' 1 10 1 2 3 4 5 6 7 8 9 10 # 产生从1到10的数,步长为2 # 如果有3个数,中间的数为步长,最后一个始终为最大值 $ seq -s ' ' 1 2 10 1 3 5 7 9 $ cat…
基因组长度 利用seqkit统计长度 seqkit stat test.fa 结果如下: file format type num_seqs sum_len min_len avg_len max_len test.fa FASTA DNA 149 396,098,845 10,246 2,658,381.5 44,776,151 sum_len总长度 各条染色体 利用pyfaidx pip install pyfaidx faidx test.fa -i chromsizes > test.s…
一.基础语法:1.批处理文件是一个“.bat”结尾的文本文件,这个文件的每一行都是一条DOS命令.可以使用任何文本文件编辑工具创建和修改.2.批处理是一种简单的程序,可以用 if 和 goto 来控制流程,也可以使用 for 循环.3.批处理的编程能力远不如C语言等编程语言,也十分不规范.4.每个编写好的批处理文件都相当于一个DOS的外部命令,把它所在的目录放到DOS搜索路径(path)中,即可在任意位置运行.5.C:\AUTOEXEC.BAT 是每次系统启动时都会自动运行的,可以将每次启动时都…
基础部分:====================================================================== 一.基础语法: 1.批处理文件是一个“.bat”结尾的文本文件,这个文件的每一行都是一条DOS命令.可以使用任何文本文件编辑工具创建和修改. 2.批处理是一种简单的程序,可以用 if 和 goto 来控制流程,也可以使用 for 循环. 3.批处理的编程能力远不如C语言等编程语言,也十分不规范. 4.每个编写好的批处理文件都相当于一个DOS的外部…
penghui_031413   Bat命令学习 基础部分:====================================================================== 一.基础语法: 1.批处理文件是一个“.bat”结尾的文本文件,这个文件的每一行都是一条DOS命令.可以使用任何文本文件编辑工具创建和修改. 2.批处理是一种简单的程序,可以用 if 和 goto 来控制流程,也可以使用 for 循环. 3.批处理的编程能力远不如C语言等编程语言,也十分不规范.…
转:http://www.cnblogs.com/SunShineYPH/archive/2011/12/13/2285570.html一.基础语法: 1.批处理文件是一个“.bat”结尾的文本文件,这个文件的每一行都是一条DOS命令.可以使用任何文本文件编辑工具创建和修改. 2.批处理是一种简单的程序,可以用 if 和 goto 来控制流程,也可以使用 for 循环. 3.批处理的编程能力远不如C语言等编程语言,也十分不规范. 4.每个编写好的批处理文件都相当于一个DOS的外部命令,把它所在的…