一.为什么要做祖先成分的PCA? GWAS研究时经常碰到群体分层的现象,即该群体的祖先来源多样性,我们知道的,不同群体SNP频率不一样,导致后面做关联分析的时候可能出现假阳性位点(不一定是显著信号位点与该表型有关,可能是与群体SNP频率差异有关),因此我们需要在关联分析前对该群体做PCA分析,随后将PCA结果作为协变量加入关联分析中. 二.怎么做PCA? 简单一个“--pca”参数即可 plink --bfile myfile --pca 10 --out myfile_pca #这里只取前10…
前言 关于选用多少个PCA做群体分层校正,各大期刊并没有一个统一的说法. 故做了如下综述. 1 随心所欲型,想选多少就选多少 PCA想选多少就选多少,这个真的不是开玩笑.有文献出处有真相! 比如下面文献直接选用10个PCA校正群体分层. Largest GWAS of PTSD (N=20070) yields genetic overlap with schizophrenia and sex differences in heritability 比如选用前5个主成分校正群体分层. Acco…
最近有需求,对WGS测序获得SNP信息进行筛减,可问题是测序个体少,call rate,maf,hwe,等条件过滤后,snp数量还是千万级别,所以后面利用plink工具根据LD信息来滤除大量SNP标记. 工具版本:PLINK v1.90b4.6 64-bit (15 Aug 2017) 一.格式转换 首先将准备好的vcf文件转换下格式,map和ped格式: 1 plink --allow-extra-chr --recode --chr-set 18 --vcf test.gz --out s_…
转自:https://www.cnblogs.com/yjd_hycf_space/p/7094005.html 题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 . 利用Python的scikit-learn包中的Kmeans算法进行聚类算法的应用练习.并利用scikit-learn包中的PCA算法来对聚类后的数据进行降维,然后画图展示出聚类效果.通过调节聚类算法的参数,来观察聚类效果的变化,练习调参. 数据介绍…
题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 . 利用Python的scikit-learn包中的Kmeans算法进行聚类算法的应用练习.并利用scikit-learn包中的PCA算法来对聚类后的数据进行降维,然后画图展示出聚类效果.通过调节聚类算法的参数,来观察聚类效果的变化,练习调参. 数据介绍: 选取某一个驾驶员的经过处理的数据集trip.csv,将该驾驶人的各个时间段的特征进行聚类.(注:其中的driv…
进入链接:http://www.internationalgenome.org/data-portal/sample 点击“filter by population”,在弹出的选择框里,选择想要下载的population,比如CHB.然后再点击“download the list” 下载后,保存文件即可. 文件格式如下,第一列为CHB的sample ID,其他是该sample对应的详细信息…
前言 很多人问我有没有关于全基因组关联分析(GWAS)原理的书籍或者文章推荐. 其实我个人觉得,做这个分析,先从跑流程开始,再去看原理. 为什么这么说呢,因为对于初学者来说,跑流程就像一个大黑洞,学习原理就像一个小黑洞. 很多人花了好几个月的时间在看原理,一旦丢给他数据去分析,依旧束手无策. 不会跑流程,内心依旧会很恐慌.就像从来没有入门一样. 所以,我的建议是咱们先不去管原理,直接从分析入手. 等把数据跑出来了,整个流程的技能点满了,再去看看它的原理. 入门:学习GWAS的在线网站: 对于没有…
为什么需要做meta分析 群体分层是GWAS研究中一个比较常见的假阳性来源. 也就是说,如果数据存在群体分层,却不加以控制,那么很容易得到一堆假阳性位点. 当群体出现分层时,常规手段就是将分层的群体独立分析,最后再做meta分析. 1.如何判断群体是否分层 先用plink计算PCA,具体方法详见链接:GWAS群体分层 (Population stratification):利用plink对基因型进行PCA 随后画出PC1和PC2在不同群体的散点图,观察群体之间是否明显分开,如果明显分开,说明群体…
现在GWAS已经属于比较古老的技术了,主要是碰到严重的瓶颈了,单纯的snp与表现的关联已经不够,需要具体的生物学解释,这些snp是如何具体导致疾病的发生的. 而且,大多数病找到的都不是个别显著的snp,大多数都找到了很多的snp,而且snp都落在非编码区了,这就导致对这些snp的解读非常的困难. 目前,已经有非常傻瓜式的GWAS pipeline了,比如:A tutorial on conducting genome‐wide association studies: Quality contr…
数据预处理(DNA genotyping.Quality control.Imputation) QC的工作可以做PLINK上完成Imputation的工作用IMPUTE2完成 2. 表型数据统计分析 逻辑回归(表型数据为二元) 线性回归(表型数据为连续性变量) 表型数据正态分析(如果不是正态分布,需转换处理为正态分布) 表型数据均值.中值.最大值.最小值 影响因子对表型的影响分析 3.画曼哈顿图(GWAS)和QQ plot图 (一).准备plink文件 (1).准备PED文件 PED文件有六列…