bctools 提取SNP indel-gap

2024-09-06

bcftools 提取vcf（snp/indel）文件子集

做群体变异检测后,通常会有提取子集的操作,之前没有发现bcftools有这个功能,都是自己写脚本操作,数据量一上来,速度真的是让人无语凝噎.这里记录下提取子vcf文件的用法,软件版本:bcftools-1.5 一.根据个体提取子集根据样品名提取vcf文件,准备要保留的个体名文件 keep.list,一行一个个体(参考第三步). 无痛处理,速度超快,命令如下: 1 bcftools view -S keep.list test.vcf >sub_indv.vcf 二.根据染色体位置提取子集注意

5、提取snp indel 位点

le final.snp.list | perl -lane '{$a+=1;print "$a\t$F[0]\t$F[1]\t$F[1]"}' | less >snp_site le final.indel.vcf |grep -v '^#' | less -S|perl -lane '{$a+=1;$b=$F[1]+length($F[3]);print "$a\t$F[0]\t$F[1]\t$b"}' | less -S >indel_site

shapeit提取或去除指定SNP和样本（shapeit extract or exclude SNP, sample）

shapeit最大的功能是对双链DNA进行phase和基因型进行impute.除此之外,还能提取SNP和样本,同样的,也能去除SNP和样本.下面简单介绍这两个功能. 一.提取SNP 提取SNP用到“--include-snp”参数,具体命令为: time shapeit \ -convert \ --input-haps data.phased \ --output-haps data.phased.subset \ --include-snp include_marker.site 其中,in

NGS检测SNP

1,Fastq数据质控 2,Fastq转化成bam,包含头文件 bwa aln ref.fa test_1.fq > test_1.sai bwa aln ref.fa test_2.fq > test_2.sai bwa sampe ref.fa -r "@RG\tID:<ID>\tLB:<LIBRARY_NAME>\tSM:<SAMPLE_NAME>\tPL:ILLUMINA" test_1.sai test_2.sai test_1

GATK4.1 call SNP

GATK4.0 和之前的版本相比还是有较大的不同,更加趋于流程化. 软件安装 1 wget https://github.com/broadinstitute/gatk/releases/download/4.1.5.0/gatk-4.1.5.0.zip 2 unzip gatk-4.1.5.0.zip GATK 简单说明 1 ## 帮助信息 2 gat --help 3 4 ## 列出所有的工具 5 gatk --list 6 7 ## 工具的说明,比如以VariantAnnotator 为例

plink提取指定样本的数据（keep函数）

提取样本见命令行: plink --bfile file --noweb --keep sampleID.txt --recode --make-bed --out sample 其中,sampleID.txt第一列为提取的样本Family ID,第二列为Within-family ID(IID) 同样的,如果是去除样本,则用参数“--remove”

GATK--使用转载

http://blog.sciencenet.cn/blog-1469385-819498.html 文章目录一.准备工作二.流程概览三.流程首先说说GATK可以做什么.它主要用于从sequencing 数据中进行variant calling,包括SNP.INDEL.比如现在风行的exome sequencing找variant,一般通过BWA+GATK的pipeline进行数据分析. 要run GATK,首先得了解它的网站(http://www.broadinstitute.org/

GATK--数据预处理，质控，检测变异

版权声明:本文源自解螺旋的矿工, 由 XP 整理发表,共 13781 字. 转载请注明:从零开始完整学习全基因组测序(WGS)数据分析:第4节构建WGS主流程 | Public Library of Bioinformatics 转载地址:https://www.plob.org/article/11698.html WGS数据分析的目的是准确检测出每个样本(这里特指人)基因组中的变异集合,也就是人与人之间存在差异的那些DNA序列.我把整个分析过程按照它们实际要完成的功能,将其分成了三个大的

Pileup 格式详细说明

转自: https://blog.csdn.net/herokoking/article/details/79276939 Pileup 格式最初是由Sanger Institute的Tony Cox 和 Zemin Ning 使用的,描述了染色体上每个位置的碱基信息. 可以用来 SNP/indel calling, 也可以直接用眼睛看一下排列的情况. Pileup 文件一般是由SAMtools从sorted bam 文件生成. samtools mpileup -f ../crrbwaidx/

【豆科基因组】绿豆Mungbean, Vigna radiata基因组2014NC

目录来源一.简介二.结果基因组组装重复序列和转座子基因组特征和基因注释绿豆的驯化豆科基因组复制历史基于转录组分析的豇豆属形成绿豆育种基因组资源三.讨论四.方法材料组装 SNP/INDEL 分析和全基因组比对遗传图谱构建转座子(TE)检测和重复序列屏蔽基因预测和注释转录因子(TF)鉴定非编码RNA鉴定转录组组装和豇豆物种形成分析抗病基因鉴定全基因组复制分析来源 Kang, Y., Kim, S., Kim, M. et al. Genome seque

cfDNA（circulating cell free DNA）全基因组测序

参考资料: [cfDNA专题]cell-free DNA在非肿瘤疾病中的临床价值(好) ctDNA, cfDNA和CTCs有什么区别吗? cfDNA你懂多少? 新发现 | 基因是否表达,做个cfDNA全基因组测序就可揭晓游离DNA Cell-Free DNA (cfDNA) Isolation 游离DNA (circulating cell free DNA,cfDNA),是一种在细胞外呈现游离状态且无细胞状态的的DNA,广泛存在于动植物及人类的血清.血浆.脑脊液.尿液.痰液或粪便当中.过去,

mismatch位置（MD tag）- sam/bam格式解读进阶

这算是第二讲了,前面一讲是:Edit Distance编辑距离(NM tag)- sam/bam格式解读进阶 MD是mismatch位置的字符串的表示形式,貌似在call SNP和indel的时候会用到. 当然我这里要说的只是利用它来计算mismatch的个数 MD = line.get_tag('MD') pat = "[0-9]+[ATGC]+" MD_list = re.findall(pat,MD) for i in MD_list: for j in i: if j == '

17、SAM文件格式说明（转载迷宫中的将军）

1. SAM格式说明 SAM代表Sequence Alignment/Map格式,是一种制表符分隔的文本格式,包含一个可选的头部分(header section,有人称之为“注释部分”),和一个比对部分(alignment section).如果包含头部分,那么头部分必须置于比对部分之前.头部分的行以@符号开头,而比对部分的行不以@符号开头.比对部分的每一行包含11个必选的字段,用于说明重要的比对信息,如比对位置(mapping position)等:另有可变数量的可选字段,用于存储其他信息(f

12、IGV-Integrative Genomics Viewer

1.IGV的网址:http://software.broadinstitute.org/software/igv/(java环境) 常见的几种输入格式bam/sam(比对文件) TDF(bam的精简版) bed(注释文件) gtf/gff(注释文件) PSL(blat比对结果) VCF(snp,indel的信息) WIG(UCSC数据库推荐格式wiggle track format) IGV(IGV默认的格式) 2.操作指南:http://www.docin.com/p-1847147664.

bcftools

beftools非常复杂,大概有20个命令,每个命令下面还有N多个参数 annotate .. edit VCF files, add or remove annotations call .. SNP/indel calling (former "view") cnv .. Copy Number Variation caller concat .. concatenate VCF/BCF files from the same set of samples consensus ..

寻找与疾病相关的SNP位点——R语言从SNPedia批量提取搜索数据

是单核苷酸多态性,人的基因是相似的,有些位点上存在差异,这种某个位点的核苷酸差异就做单核苷酸多态性,它影响着生物的性状,影响着对某些疾病的易感性.SNPedia是一个SNP调査百科,它引用各种已经发布的文章,或者数据库信息对SNP位点进行描述,共享着人类基因组变异的信息.我们可以搜索某个SNP位点来寻找与之相关的信息,也可以根据相关疾病,症状来寻找相关的SNP. 初次使用SNPedia SNPedia主页网址为http://snpedia.com/index.php/SNPedia,比如我想

SNP (Single Nucleotide Polymorphism), SNV ( single nucleotide variants ) , Indel (insertion-deletion) 的区别

SNP (Single Nucleotide Polymorphism):强调在一个群体中具有一定频率的变异,一般为二态性.比如G→C SNV ( single nucleotide variants ) :包含多种单核苷酸变异,比如该位点可能由T变C,也可能由T变A.则T→C,A.SNV并没有强调在一个群体中具有一定的频率. Indel (insertion-deletion) :插入和缺失,涉及多个核苷酸的改变,插入:G→GTC, 缺失:GTC→G

如何从vcf文件中批量提取一系列基因的SNP位点？

目录需求示例文件代码实现补充说明需求客户的一个简单需求: 我有一批功能基因位点,想从重测序的群体材料中找到这些位点,如何批量快速获得? 示例文件 gene.txt test.vcf 代码实现 run.sh cat $1 |while read gene chr from to do #echo $chr $from $to if echo $2 |grep -q '.*.vcf.gz$';then vcftools --gzvcf $2 --chr $chr --from-bp $f

提取出一个组装基因组的gap（N）和重复序列区域，保存为bed格式

参见: Question: How to extract allnon-seqencedpositions from a genome (Fasta file)? test.fa >chr1 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNtaaattgttt t

根据SNP的位置从基因组提取上下游序列

代码如下: #!/usr/bin/perl -w use strict; die "perl $0 <vcf> <genome>" if(@ARGV == 0); #Author:yueyao@genomics.cn my $vcf=shift; my $genome=shift; my%hash; my $id; open GENOME,$genome or die $!; while(<GENOME>){ chomp; if(/^>/)

bctools 提取SNP indel-gap

热门专题