5、提取snp indel 位点】的更多相关文章

le final.snp.list | perl -lane '{$a+=1;print "$a\t$F[0]\t$F[1]\t$F[1]"}' | less >snp_site le final.indel.vcf |grep -v '^#' | less -S|perl -lane '{$a+=1;$b=$F[1]+length($F[3]);print "$a\t$F[0]\t$F[1]\t$b"}' | less -S >indel_site…
做群体变异检测后,通常会有提取子集的操作,之前没有发现bcftools有这个功能,都是自己写脚本操作,数据量一上来,速度真的是让人无语凝噎.这里记录下提取子vcf文件的用法,软件版本:bcftools-1.5 一.根据个体提取子集 根据样品名提取vcf文件,准备要保留的个体名文件 keep.list,一行一个个体(参考第三步). 无痛处理,速度超快,命令如下: 1 bcftools view -S keep.list test.vcf >sub_indv.vcf 二.根据染色体位置提取子集 注意…
shapeit最大的功能是对双链DNA进行phase和基因型进行impute.除此之外,还能提取SNP和样本,同样的,也能去除SNP和样本.下面简单介绍这两个功能. 一.提取SNP 提取SNP用到“--include-snp”参数,具体命令为: time shapeit \ -convert \ --input-haps data.phased \ --output-haps data.phased.subset \ --include-snp include_marker.site 其中,in…
1,Fastq数据质控 2,Fastq转化成bam,包含头文件 bwa aln ref.fa test_1.fq > test_1.sai bwa aln ref.fa test_2.fq > test_2.sai bwa sampe ref.fa -r "@RG\tID:<ID>\tLB:<LIBRARY_NAME>\tSM:<SAMPLE_NAME>\tPL:ILLUMINA" test_1.sai test_2.sai test_1…
GATK4.0 和之前的版本相比还是有较大的不同,更加趋于流程化. 软件安装 1 wget https://github.com/broadinstitute/gatk/releases/download/4.1.5.0/gatk-4.1.5.0.zip 2 unzip gatk-4.1.5.0.zip GATK 简单说明 1 ## 帮助信息 2 gat --help 3 4 ## 列出所有的工具 5 gatk --list 6 7 ## 工具的说明,比如以VariantAnnotator 为例…
提取样本见命令行: plink --bfile file --noweb --keep sampleID.txt --recode --make-bed --out sample 其中,sampleID.txt第一列为提取的样本Family ID,第二列为Within-family ID(IID) 同样的,如果是去除样本,则用参数“--remove”…
一篇通俗的文章:eQTL Expression quantitative trait loci (eQTLs) are genomic loci that explain all or a fraction of variation in expression levels of mRNAs. 基因组位点,解释了基因表达的变化. A quantitative trait locus (QTL) is a section of DNA (the locus) which correlates wi…
到底什么是eQTL? eQTL和QTL之间有什么联系?为什么说QTL比eQTL难很多? QTL和GWAS有什么关系? GTEx数据库里的eQTL数据如何利用? 说eQTL之前必须先解释QTL,QTL,一说到中文名就清楚了,数量性状位点,就是一个性状,比如身高,会由成百上千个基因来决定,目的简单明确,那么我们如何找到这些位点呢? Quantitative Trait Locus (QTL) Analysis - 来自nature的介绍 实现层面,其实研究的不是基因,而是染色体上的区段,更明确的说就…
Design based on biology 通过比较基因组学的方法,将脊椎动物基因组的数据,解决生物学各方面问题.新的调控注释(在脊椎动物的进化过程中的出现的)可以丰富物种树(比如不同功能蛋白质进化速度上的差异(因为编码蛋白质基因和早期进化基因的发现)). Sequencing 需要以下两种策略叠加: 1.Pooled genome sequence strategies :测同一物种的不同个体,不同个体叠加. 2.representative genome assembly approac…
一.使用GATK前须知事项: (1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验设计(RNA-Seq)的分析方法. (2)GATK是一个应用于前沿科学研究的软件,不断在更新和修正,因此,在使用GATK进行变异检测时,最好是下载最新的版本,目前的版本是2.8.1(2014-02-25).下载网站:http://www.broadinstitute.org/gatk/downloa…