引用自NCBI的概念(https://www.ncbi.nlm.nih.gov/projects/SNP/docs/rs_attributes.html#gmaf) Global minor allele frequency (MAF):  dbSNP is reporting the minor allele frequency for each rs included in  a default global population. Since this is being provided…
计算等位基因频率有两种方式,第一种用vcftool计算: /path/to/vcftools --vcf file.vcf --freq --chr 1 --out filefreq 很简单的一个命令行,file.vcf指的是你要输入的vcf文件,--freq表示计算等位基因频率,--chr后面的1表示你要计算的区域在1号染色体,当然,你也可以选择你想计算的染色体区域,filefreq指的是输出的文件名. 结果如下图所示: 第二种用plink计算: /path/to/plink-1.07-x86…
Genome Aggregation Database (gnomAD) 这是一个关于什么的数据库?broad institute开发的,整合了目前几乎所有的公共的WES和WGS测序数据,并对数据做了一些总结,可供其他开发者使用. 怎么使用gnomAD? 查感兴趣的基因 查感兴趣的variant 参考人群等位基因频率数据库 基因变异耐受性 可以不做这方面的工作,但是该领域一些最基本的概念必须了解,这样才有问问题和合作的可能性. 参考: 遗传资源数据库专题-gnomAD gnomAD 数据库简介…
Implement FreqStack, a class which simulates the operation of a stack-like data structure. FreqStack has two functions: push(int x), which pushes an integer xonto the stack. pop(), which removes and returns the most frequent element in the stack. If…
我一直在思考一个问题,图像增强以后,哪些方面的特征最为显著,思来想去,无果而终!翻看了一篇知网的paper,基于保真度(VIF)的增强图像质量评价,文章中指出无参考质量评价,可以从三个方面考虑:平均梯度(AG).信息熵(IE).空间频率(SF).这些特征不是很全面,效果也未必是好的,在数据库上测试的结果的确不是很理想,就以空间频率为主吧,研究一下: 1.什么是图像的频率: 不同频率信息在图像结构中有不同的作用.图像的主要成分是低频信息,它形成了图像的基本灰度等级,对图像结构的决定作用较小:中频信…
##TF-IDF TF(词频):  假定存在一份有N个词的文件A,其中‘明星‘这个词出现的次数为T.那么 TF = T/N; 所以表示为: 某一个词在某一个文件中出现的频率. TF-IDF(词频-逆向文件频率):  表示的词频和逆向文件频率的乘积. 比如:  假定存在一份有N个词的文件A,其中‘明星‘这个词出现的次数为T.那么 TF = T/N;  并且‘明星’这个词,在W份文件中出现,而总共有X份文件,那么 IDF = log(X/W) ; 而: TF-IDF =  TF *  IDF = T…
SNPs,全称是single nucleotide polymorphisms,SNPs等位基因频率的容易估计.采用混和样本估算等位基因的频率是种高效快速的策略.该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率. SNPs概念 在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性.即:在不同个体的同一条染色体或同一位点的核苷酸序列中,绝大多数核苷酸序列一致而只有一个碱基不同的现象. 只涉及到单个核苷酸碱基…
现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp,大多数都找到了很多的snp,而且snp都落在非编码区了,这就导致对这些snp的解读非常的困难. 目前,已经有非常傻瓜式的GWAS pipeline了,比如:A tutorial on conducting genome‐wide association studies: Quality contr…
WGS和WES测序和分析会产生大量的variant数据. 显然直接分析全部的variant是非常不靠谱的. 做疾病的话,有一些常用的过滤套路. variant作用于基因表达主要分两大类: 1. coding,可以直接影响RNA的形成,以及后面蛋白的折叠组装: 2. non-coding,现在最流行的就是enhancer这个媒介,已经有比较好的结果了. 过滤的必要性 首先GWAS已经做了,要理解GWAS产生了哪些结果,GWAS的局限性在哪? Our previous meta-analysis o…
有很多概念需要明确区分: 人有23对染色体,其中22对常染色体autosome,另外一对为性染色体sex chromosome,XX为女,XY为男. 染色体区带命名:在标示一特定的带时需要包括4项:①染色体号:②臂的符号:③区号:④在该区内的带号. 1p22表示为1号染色体短臂2区2带. 等位基因其实是一个集合,在同一个locus出现得基因型互为等位基因.Aa不能叫等位基因,正确的逻辑是:A和a是一组等位基因.由等位基因可以定义纯合和杂合. 二倍体与多倍体细胞的某些染色体上,在同一基因座上有相同…