前言 关于选用多少个PCA做群体分层校正,各大期刊并没有一个统一的说法. 故做了如下综述. 1 随心所欲型,想选多少就选多少 PCA想选多少就选多少,这个真的不是开玩笑.有文献出处有真相! 比如下面文献直接选用10个PCA校正群体分层. Largest GWAS of PTSD (N=20070) yields genetic overlap with schizophrenia and sex differences in heritability 比如选用前5个主成分校正群体分层. Acco…
一.为什么要做祖先成分的PCA? GWAS研究时经常碰到群体分层的现象,即该群体的祖先来源多样性,我们知道的,不同群体SNP频率不一样,导致后面做关联分析的时候可能出现假阳性位点(不一定是显著信号位点与该表型有关,可能是与群体SNP频率差异有关),因此我们需要在关联分析前对该群体做PCA分析,随后将PCA结果作为协变量加入关联分析中. 二.怎么做PCA? 简单一个“--pca”参数即可 plink --bfile myfile --pca 10 --out myfile_pca #这里只取前10…
前言 很多人问我有没有关于全基因组关联分析(GWAS)原理的书籍或者文章推荐. 其实我个人觉得,做这个分析,先从跑流程开始,再去看原理. 为什么这么说呢,因为对于初学者来说,跑流程就像一个大黑洞,学习原理就像一个小黑洞. 很多人花了好几个月的时间在看原理,一旦丢给他数据去分析,依旧束手无策. 不会跑流程,内心依旧会很恐慌.就像从来没有入门一样. 所以,我的建议是咱们先不去管原理,直接从分析入手. 等把数据跑出来了,整个流程的技能点满了,再去看看它的原理. 入门:学习GWAS的在线网站: 对于没有…
为什么需要做meta分析 群体分层是GWAS研究中一个比较常见的假阳性来源. 也就是说,如果数据存在群体分层,却不加以控制,那么很容易得到一堆假阳性位点. 当群体出现分层时,常规手段就是将分层的群体独立分析,最后再做meta分析. 1.如何判断群体是否分层 先用plink计算PCA,具体方法详见链接:GWAS群体分层 (Population stratification):利用plink对基因型进行PCA 随后画出PC1和PC2在不同群体的散点图,观察群体之间是否明显分开,如果明显分开,说明群体…
画曼哈顿图和QQ plot 首推R包“qqman”,简约方便.下面具体介绍以下. 一.画曼哈顿图 install.packages("qqman") library(qqman) 1.准备包含SNP, CHR, BP, P的文件gwasResults(如果没有zscore可以不用管),如下所示: 2.上代码,如下所示: manhattan(gwasResults) 如果觉得不够美观,考虑添加一下参数: manhattan(gwasResults, main = "Manhat…
数据预处理(DNA genotyping.Quality control.Imputation) QC的工作可以做PLINK上完成Imputation的工作用IMPUTE2完成 2. 表型数据统计分析 逻辑回归(表型数据为二元) 线性回归(表型数据为连续性变量) 表型数据正态分析(如果不是正态分布,需转换处理为正态分布) 表型数据均值.中值.最大值.最小值 影响因子对表型的影响分析 3.画曼哈顿图(GWAS)和QQ plot图 (一).准备plink文件 (1).准备PED文件 PED文件有六列…
现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp,大多数都找到了很多的snp,而且snp都落在非编码区了,这就导致对这些snp的解读非常的困难. 目前,已经有非常傻瓜式的GWAS pipeline了,比如:A tutorial on conducting genome‐wide association studies: Quality contr…
前段时间有位小可爱问我,为什么她的QQ图特别飘,如果你不理解怎样算飘,请看下图: 理想的QQ图应该是这样的: 我当时的第一反应是:1)群体分层造成的:2)表型分布有问题.因此让她检查一下数据的群体分层情况,如果没有问题就看一下表型分布. 这段时间有空了,我觉得有必要梳理一下这个飘逸的QQ图,到底是怎么回事儿以及如何确定这么飘逸的QQ图有没有问题. 1.产生飘逸的QQ图的原因 产生飘逸的qq图的原因有很多,比如我们喜闻乐见的:基因多效性(polygenicity).也有可能是混淆偏倚,比如群体分层…
一.为什么要校正case和control数量比例不平衡情况 试问作为生信届人员,最怕的是什么,当然是统计结果不靠谱.统计结果不靠谱包括两方面:一个是假阴性,一个是假阳性.假阴性可以理解为白天鹅被误当成丑小鸭了,假阳性可以理解为一大堆青蛙,你不知道哪个才是你的真命天子.假阴性就罢了,最多让你错过发现真理的机会,但万一假阳性呢,你拿着一个看似完美的结果吭哧吭哧做实验验证,一年半载的周期下来,什么结果都验证不出来,岂不是坑了做实验的人.因此,我们就要在源头上,把这个不靠谱的统计结果杜绝出去. 上一篇文…
基因: 是指决定生物某一遗传性状的染色体DNA片段 基因型: `基因型`又称`遗传型`,是某一生物个体全部基因组合的总称.它反应生物体的遗传构成,即从双亲获得的全部基因的总和.遗传学中具体使用的基因型,往往是指某一性状的基因型.两个生物只要有一个基因座不同,那么它们的基因型就不相同,因此基因型指的是一个个体所有等位基因的所有基因座上的所有组合. `基因型`是生物性状表型的内在遗传基础,是肉眼看不到的,只能通过杂交试验根据表型来推断 单倍型 是`单倍体基因型`的简称,在遗传学上是指在同一染色体上进…