转载:http://blog.sina.com.cn/s/blog_7110867f0101njf5.html
http://www.cnblogs.com/liuhui0622/p/6246111.html
http://vcftools.sourceforge.net/specs.html
http://en.wikipedia.org/wiki/Variant_Call_Format
http://blog.sina.com.cn/s/blog_74cbb8e80101f8ic.html
http://samtools.sourceforge.net/mpileup.shtml
1、vcf的格式(10列)   1列: CHROM [chromosome]: 染色体名称。   2列:POS [position]: 参考基因组突变碱基位置,如果是INDEL(插入缺失),位置是INDEL的第一个碱基位置。   3列:ID [identifier]: 突变的名称。若没有,则用‘.’表示其为一个新变种。   4列:REF [reference base(s)]: 参考染色体的碱基,必须是ATCGN中的一个,N表示不确定碱基。   5列:ALT [alternate base(s)]: 与参考序列比较,发生突变的碱基;多个的话以“,”连接, 可选符号为ATCGN*,大小写敏感。   6列:QUAL [quality]: Phred标准下的质量值,表示在该位点存在突变的可能性;该值越高,则突变的可能性越大;计算方法:Phred值 = -10 * log (1-p) p为突变存在的概率。   7列:FILTER [filter status]: GATK使用其它的方法进行过滤后得到的过滤结果,如果通过则该值为“PASS”;若此突变不可靠,则该项不为”PASS”或”.”。   8列:INFO [additional information]: 表示变异的详细信息 9列:提供了这个sample的基因型的信息 10列:该样品的名称(例如T01等),是由BAM文件中的@RG下的 SM 标签决定的。
2、基因型信息(9、10列)

最后两列数据,这两列数据是对应的,前者为格式,后者为格式对应的数据。

GT:样品的基因型(genotype)。两个数字中间用’/'分 开,这两个数字表示双倍体的sample的基因型。0 表示样品中有ref的allele; 1 表示样品中variant的allele; 2表示有第二个variant的allele。  因此: 0/0 表示sample中该位点为纯合的,和ref一致; 0/1 表示sample中该位点为杂合的,有ref和variant两个基因型; 1/1 表示sample中该位点为纯合的,和variant一致。


AD:(Allele Depth) 为sample中每一种allele的reads覆盖度,在diploid中则是用逗号分割的两个值,前者对应ref基因型,后者对应variant基因型;

DP:(Depth)为sample中该位点的覆盖度;


GQ:基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越 大;计算方法:Phred值 = -10 * log (1-p) p为基因型存在的概率。


PL:指定的三种基因型的质量值(provieds the likelihoods of the given genotypes)。这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。和之前不一致,该值越大,表明为该种基因型的可能 性越小。 Phred值 = -10 * log (p) p为基因型存在的概率。

DV : 高质量的非参考碱基   

      SP : Phred的p值误差线


3. VCF第8列的信息


该列信息最多,都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的注释信息在VCF文件的头部注释中给出。


   DP [read depth]: 样本在这个位置的一些reads被过滤掉后的覆盖度   DP4 : 高质量测序碱基,位于REF或者ALT前后   MQ [mapping quality]: 表示覆盖序列质量的均方值RMS   FQ : Phred值关于所有样本相似的可能性   AF1 [allele frequency]: 表示Allele(等位基因)的频率,AF1为第一个ALT等位基因发生频率的可能性评估   AC1 [allele count]: 表示Allele(等位基因)的数目,AC1为对第一个ALT等位基因计数的最大可能性评估   AN [allele number]: 表示Allele(等位基因)的总数目   IS : 插入缺失或部分插入缺失的reads允许的最大数量   G3 : ML 评估基因型出现的频率   HWE : chi^2基于HWE的测试p值和G3   CLR : 在受到或者不受限制的情况下基因型出现可能性的对数值   UGT : 最可能不受限制的三种基因型结构   CGT : 最可能受限制三种基因型结构   PV4 : 四种P值的误差,分别是(strand、baseQ、mapQ、tail distance bias)   INDEL : 表示该位置的变异是插入缺失,进行SNP和INDEL calling的结果中,有该TAG并且值为0表示该位点为SNP,没有则为INDEL。   PC2 : 非参考等位基因的Phred(变异的可能性)值在两个分组中大小不同   PCHI2 : 后加权chi^2,根据p值来测试两组样本之间的联系   QCHI2 : Phred标准下的PCHI2.   PR : 置换产生的一个较小的PCHI2   QBD [quality by depth]: 表示测序深度对质量的影响   RPB [read position bias]: 表示序列的误差位置   MDV : 样本中高质量非参考序列的最大数目   VDB [variant distance bias]: 表示RNA序列中过滤人工拼接序列的变异误差范围

HaplotypeScore:Consistency of the site with at most two segregating haplotypes

InbreedingCoeff:Inbreeding coefficient as estimated from the genotype likelihoods per-sample when compared against the Hard-Weinberg expectation

MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed

MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT alle in the same order as listed

MQ:RMS Mapping Quality

MQ0:Total Mapping Quality Zero Reads

MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities

QD:Variant Confidence/Quality by Depth

RPA:Number of times tandem repeat unit is repeated, for each allele (including reference)

RU:Tandem repeat unit (bases)

ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias

STR:Variant is a short tandem repeat


  

33、VCF格式的更多相关文章

  1. vcf格式

    Variant Call Format(VCF)是一个用于存储基因序列突变信息的文本格式.表示单碱基突变, 插入/缺失, 拷贝数变异和结构变异等.BCF格式文件是VCF格式的二进制文件. CHROM ...

  2. vcf格式简介

    1)背景 伴随着大规模的基因分型及测序工程的产生(例如1000 Genomes Project),之前的信息贮存格式例如gff文件它记录了每一个基因的详细信息,其中许多基因信息在基因组之间是共享的,而 ...

  3. Android Contact 导入导出 vcf格式(不依赖第三方库)

    Android sdk 支持vcf处理的(忘记最低哪个版本开始支持的了,可以查一查) 备注:此代码来自Stack Overflow(原地址找不到了,o(╥﹏╥)o) 1. 导出联系人为vcf格式 Co ...

  4. vcf格式文件转化为Excel(csv)格式文件(R语言的write.csv,write.table功能,Excel表的文件导入功能)

    最近在整理文件,准备把vcf文件转化为Excel格式,或者CSV格式,网上搜了一堆资料,还真有人专门开发出转化格式的工具:叫vcf2csv(下载地址http://vcf2csv.sourceforge ...

  5. JS 日期格式化为 2020-11-01 22:33:44 格式

    项目中经常会用到将JS日期格式化输出为 标准格式(2020-11-01 22:33:44)的问题.写个精简版的,代码如下: function formatDate(d){ d = d || new D ...

  6. bcftools将vcf生成bgzip和index格式

    利用bcftools软件将vcf格式生成gz格式和index格式,需要用到“-Oz”和“index”命令,具体如下: /bcftools-1.8/bin/bcftools view ExAC.vcf ...

  7. Atitit.常见软件 数据 交换格式 标准

    Atitit.常见软件 数据 交换格式 标准 1. 常见的数据格式txt ,doc ,pic,music ,vodio1 2. 通用格式json yaml phpstr1 3. 专用格式1 4. 用户 ...

  8. 操作VCF卡片信息的第三方jar包:ez-vcard

    ez-vcard https://github.com/mangstadt/ez-vcard 目前最新的版本已经更新到0.9.8 起初使用该jar包的时候,是0.9.3,当时遇到一个很尴尬的问题, 就 ...

  9. 小米/红米导入VCF联系人乱码问题解决

    PS:尽量不要用什么豌豆荚啊.微信啊.QQ啊之类的通讯录备份,那就等于把自己的通讯录免费送给腾讯他们了....还是自己手动的好一些,但是小白用户或者经常丢手机的卖就卖吧,总比联系人都丢了要好~~~ 默 ...

随机推荐

  1. 《程序员代码面试指南》第三章 二叉树问题 判断t1 树中是否有与t2 树拓扑结构完全相同的子树

    题目 判断t1 树中是否有与t2 树拓扑结构完全相同的子树 java代码 package com.lizhouwei.chapter3; /** * @Description: 判断t1 树中是否有与 ...

  2. 什么是gitlab CI ?CI代表什么?

    CI是Continuous Integration的简称,就是持续集成的意思. 就是说你代码改动了,测试了,提交了,持续集成系统会自动构建(编译等等).持续集成的理念是每个提交的版本都应该是可交付的, ...

  3. DEDE 列表页调用如 标题,时间,简介等

    以下是直接从板子中复制出来的,CSS自已根据需要写下就行.在调时简介长度不知道怎么控制,现在说下方法1. infolen='30' 这个可以2. 系统设置 >其它设置 >内容简介长度填下就 ...

  4. scp的用法

    scp是有Security的文件copy,基于ssh登录.命令基本格式:scp [OPTIONS] file_source file_target OPTIONS:-v 和大多数 linux 命令中的 ...

  5. tkinter模块中常用的参数

    以下内容来自于:http://www.cnblogs.com/aland-1415/p/6849193.html(个别内容掺入了自己的重新整理) cnf={}与**kw: cnf={}这是一个默认参数 ...

  6. 分享知识-快乐自己:快速理解(Java内部类)

    1):成员内部类 什么是内部类?: 内部类就是在一个类中定义另一个类. 定义语法: 使用命令行查看编译 产生的文件: 如何生成内部类对象? 创建规则:内部类对象 需要先声明外部类对象. 内部类以及外部 ...

  7. 图像处理检测方法 — SIFT和SURF

    0.特征与匹配方法总结汇总对比 参考网址:http://simtalk.cn/2017/08/18/%E7%89%B9%E5%BE%81%E4%B8%8E%E5%8C%B9%E9%85%8D/#ORB ...

  8. c#基础综述

    一个相关的博客:http://blog.csdn.net/zhang_xinxiu/article/details/8605980 很好的一个网站:http://www.runoob.com/

  9. Unity3D之Mesh(七)绘制长方体

    前言: 从现在开始,终于感觉进入一点点正题了!动态创建三维立体模型mesh!依然从简单入手:长方体. 一.基本思路 由于是创建长方体mesh,由之前的研究得知,两个数据必须要有,即:顶点的数据:ver ...

  10. Java钉钉开发_00_资源帖

    1.源码 本系列教程的源码已上传至GitHub:  https://github.com/shirayner/DingTalk_Demo 2.官方 官方源码:https://github.com/op ...