计算等位基因频率有两种方式,第一种用vcftool计算: /path/to/vcftools --vcf file.vcf --freq --chr 1 --out filefreq 很简单的一个命令行,file.vcf指的是你要输入的vcf文件,--freq表示计算等位基因频率,--chr后面的1表示你要计算的区域在1号染色体,当然,你也可以选择你想计算的染色体区域,filefreq指的是输出的文件名. 结果如下图所示: 第二种用plink计算: /path/to/plink-1.07-x86…
引用自NCBI的概念(https://www.ncbi.nlm.nih.gov/projects/SNP/docs/rs_attributes.html#gmaf) Global minor allele frequency (MAF):  dbSNP is reporting the minor allele frequency for each rs included in  a default global population. Since this is being provided…
Genome Aggregation Database (gnomAD) 这是一个关于什么的数据库?broad institute开发的,整合了目前几乎所有的公共的WES和WGS测序数据,并对数据做了一些总结,可供其他开发者使用. 怎么使用gnomAD? 查感兴趣的基因 查感兴趣的variant 参考人群等位基因频率数据库 基因变异耐受性 可以不做这方面的工作,但是该领域一些最基本的概念必须了解,这样才有问问题和合作的可能性. 参考: 遗传资源数据库专题-gnomAD gnomAD 数据库简介…
对genotype的等位型进行计数,需要用到以下参数: --freq Allele frequencies--counts Modifies --freq to report actual allele counts 具体用法如下命令: /plink-1.07-x86_64/plink --freq --counts --noweb --bfile file --make-bed --out file .frq.count (basic allele count report) Produced…
在RFC2544中, 会有一个Learning Frequency的字段让我们选择, 其值有4个, 分别是learn once, learn Every Trial, Learn Every Frame Size, Learn Every Iteration. 对于初学者来说, 由于对RENIX RFC2544的运行原理不了解, 这几个字段看起来比较生涩, 不知道如何选择, 尤其是Learn Every Trial和Learn Every Iteration. 本文配合实际例子, 对Iterat…
1)背景 伴随着大规模的基因分型及测序工程的产生(例如1000 Genomes Project),之前的信息贮存格式例如gff文件它记录了每一个基因的详细信息,其中许多基因信息在基因组之间是共享的,而我们需要记录的仅仅是不同基因组之间变异的地方,因此这些格式会显得格外冗余.这就迫切需要一种新的格式来记录高效的记录这些变异信息.VCF(Variant Call Format)就是这样一种用来贮存基因序列变异信息的文本文件(通常是压缩格式). 2)VCF格式简介 VCF 格式文件包含有2部分:1)…
VCFtools用来处理VCF文档. 筛选特定突变 比较文件 总结突变 转化文件格式 验证并合并文件 取突变交集和差集 Get basic file statistics input可以为VCF或BCF格式(--vcf --gvcf or --bcf). vcftools --vcf test.vcf less test.vcf | vcftools --vcf - Applying a filter 可以把筛选的突变写入一个新文件.--recode 表示输出筛选的内容,--recode-INF…
GWAS Catalog The NHGRI-EBI Catalog of published genome-wide association studies EBI负责维护的一个收集已发表的GWAS研究的数据库 Catalog stats Last data release on 2019-09-24 4220 publications 107486 SNPs 157336 associations Genome assembly GRCh38.p12 dbSNP Build 151 Ense…
一. 运行meerkat 前面已经依序安装了meerkat 的环境和meerkat,运行了预处理一步,在相对应的bam文件目录下生成了大批文件,因此,当要用meerkat处理某个bam文件时,应先将该bam文件移动到专有的一个文件夹,manual中也建议这样用. 预处理生成的文件包括: 黑名单文件.gz isinfo文件:包括插入大小信息 pdf文件:插入大小的分布图,unmapped reads长度的分布图,softclip reads长度分布图 pre.log文件:日志文件,包括输入的参数,…
一.准备工作 meerkat 0.189版本和以前的版本相比,支持bwa mem 输出的bam文件,还支持全外显子数据count SV. meerkat原理 1.1 需要准备的软件 unix/Linux系统(自带) CMake(自带) PERL 5.8.1及以上(自带) BioPERL 1.5.0及以上(自行安装) R 2.3.1及以上(自带) samtools 0.1.5到0.1.19(不支持新版本samtools) BWA 0.6.2.(已经可以支持新版本的BWA,但是 split read…