plink如何计算Pca

2024-10-16

plink 进行PCA分析

当我们进行群体遗传分析时,得到vcf后,可利用plink进行主成分(PCA)分析: 一.软件安装 1 conda install plink 二.使用流程第一步:将vcf转换为plink格式 1 plink --vcf F_M_trans.recode.vcf.gz --recode --out testacc --const-fid --allow-extra-chr 2 3 4 # --vcf vcf 或者vcf.gz 5 # --recode 输出格式 6 # --out 输入前缀 7

EIGENSTRAT计算PCA的显著性

之前我写过一篇文章群体遗传分析分层校正,该选用多少个PCA?,里面提到可以通过EIGENSTRAT软件确定显著的主成分,后续就可以将显著的主成分加入协变量中. 这篇文章主要是讲如何通过EIGENSTRAT软件确定显著的主成分. 1下载安装EIGENSTRAT 1.1 下载下载地址:https://data.broadinstitute.org/alkesgroup/EIGENSOFT/EIG-6.1.4.tar.gz wget https://data.broadinstitute.org/a

一行命令学会全基因组关联分析(GWAS)的meta分析

为什么需要做meta分析群体分层是GWAS研究中一个比较常见的假阳性来源. 也就是说,如果数据存在群体分层,却不加以控制,那么很容易得到一堆假阳性位点. 当群体出现分层时,常规手段就是将分层的群体独立分析,最后再做meta分析. 1.如何判断群体是否分层先用plink计算PCA,具体方法详见链接:GWAS群体分层 (Population stratification):利用plink对基因型进行PCA 随后画出PC1和PC2在不同群体的散点图,观察群体之间是否明显分开,如果明显分开,说明群体

GWAS群体分层 (Population stratification)：利用plink对基因型进行PCA

一.为什么要做祖先成分的PCA? GWAS研究时经常碰到群体分层的现象,即该群体的祖先来源多样性,我们知道的,不同群体SNP频率不一样,导致后面做关联分析的时候可能出现假阳性位点(不一定是显著信号位点与该表型有关,可能是与群体SNP频率差异有关),因此我们需要在关联分析前对该群体做PCA分析,随后将PCA结果作为协变量加入关联分析中. 二.怎么做PCA? 简单一个“--pca”参数即可 plink --bfile myfile --pca 10 --out myfile_pca #这里只取前10

PLINK pca

#coding:utf-8 __author__ = 'similarface' import os import pandas as pd import matplotlib.pyplot as plt path='plink.eigenvec' def plinkPca(filepath,header=""): data=pd.read_table(path,header=None,sep=' ') filterdata=data.loc[:,0:5] label=filterda

特征脸(Eigenface)理论基础-PCA(主成分分析法)

在之前的博客人脸识别经典算法一:特征脸方法(Eigenface) 里面介绍了特征脸方法的原理,但是并没有对它用到的理论基础PCA做介绍,现在做补充.请将这两篇博文结合起来阅读.以下内容大部分参考自斯坦福机器学习课程:http://cs229.stanford.edu/materials.html 假设我们有一个关于机动车属性的数据集{x(i);i=1,...,m}(m代表机动车的属性个数),例如最大速度,最大转弯半径等.假设x(i)本质上是n维的空间的一个元素,其中n<<m,但是n对我们

基于PCA的特征提取

图像处理方面的知识也学了一段时间了,总是光看理论的话,感觉联系不上实际,第一次把理论综合的实现出来,对这些理论的印象才感觉的更深刻,也能够为后续的学习打下良好的基础. PCA是比较老的算法,但是可靠性挺好,对于我这种新手,练练手还是不错的. 下面开始对这些算法说一说我自己的理解,如果有不正确的地方还请各位牛人指点. 主成分分析(PCA)是多变量分析中一项很老的技术,源于通信理论中的K-L变换,它考虑的是对于d维空间中的n个向量X1,X2......Xn,如何在低维空间中进行表示,这需要对其空间进

PCA 降维

http://f.dataguru.cn/spark-751832-1-1.html 我们可以利用PCA算法将向量的维数降低,从而实现特征转化.具体原理在<机器学习>课程中有详细的讲述.故此处将直接介绍如何利用MLlib中的PCA算法进行特征转换.下列演示了如何计算主成分向量并实现向量降维,同时保持标签计算线性回归. import org.apache.spark.mllib.regression.RegressionWithSGDimport org.apache.spark.mllib.r

主成分分析PCA学习一条龙

转自:https://yoyoyohamapi.gitbooks.io/mit-ml/content/%E7%89%B9%E5%BE%81%E9%99%8D%E7%BB%B4/articles/PCA.html https://www.jianshu.com/p/162bb4ea1b7f 1.有什么功能? 进行数据降维,从n个特征里选出k个最具有代表性的,使数据损失降到最小,尽可能保有原来的数据特征. 假设需要从n维降到k维,那么需要找出k个n维向量,将原有的数据投影到k个n维向量构成的k维空间

主成分分析(PCA)原理与实现

主成分分析原理与实现主成分分析是一种矩阵的压缩算法,在减少矩阵维数的同时尽可能的保留原矩阵的信息,简单来说就是将 $n×m$的矩阵转换成$n×k$的矩阵,仅保留矩阵中所存在的主要特性,从而可以大大节省空间和数据量.最近课上学到这个知识,感觉很有意思,就在网上找一些博客进行学习,发现网上关于这方面的介绍很多,但是感觉都不太全面,单靠某一个介绍还是无法理解,当然这可能也跟个人基础有关.所以我在这里根据自己的理解写一个总结性的帖子,与大家分享同时也方便自己复习.对于主成分分析,可以参照以

pcA降维 SVD

前言: PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的.在上篇文章中便是基于特征值分解的一种解释.特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中.而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景.奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性.就像是描述一个人一样,给别人描述说这个人长得浓眉大眼,方脸,络腮胡,而且带个黑框的眼镜

Eigensoft-smartpca分析PCA报错：warning (mapfile): bad chrom: Segmentation fault

目录问题解决问题一直以来用Eigensoft的smartpca来做群体遗传的PCA分析很顺畅,结果也比较靠谱. 但今天报错如下: $ ~/miniconda3/bin/smartpca -p smartpca.par parameter file: smartpca.par ### THE INPUT PARAMETERS ##PARAMETER NAME: VALUE genotypename: plink.ped snpname: plink.pedsnp indivname: pl

Kernel PCA for Novelty Detection

目录引主要内容的选择数值实验矩形框 spiral 代码 Hoffmann H. Kernel PCA for novelty detection[J]. Pattern Recognition, 2007, 40(3): 863-874. 引 Novelty Detection: 给我的感觉有点像是奇异值检测,但是又不对,训练样本应该默认是好的样本.这个检测应该就是圈个范围,告诉我们在这个范围里的数据是这个类的,外面的不是这个类的,所以论文里也称之为:one-class classif

用scikit-learn学习主成分分析(PCA)

在主成分分析(PCA)原理总结中,我们对主成分分析(以下简称PCA)的原理做了总结,下面我们就总结下如何使用scikit-learn工具来进行PCA降维. 1. scikit-learn PCA类介绍在scikit-learn中,与PCA相关的类都在sklearn.decomposition包中.最常用的PCA类就是sklearn.decomposition.PCA,我们下面主要也会讲解基于这个类的使用的方法. 除了PCA类以外,最常用的PCA相关类还有KernelPCA类,在原理篇我们也讲到

主成分分析（PCA）原理总结

主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一.在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用.一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结. 1. PCA的思想 PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据.具体的,假如我们的数据集是n维的,共有m个数据$(x^{(1)},x^{(2)},...,x^{(m)})$.我们希望将这m个数据的维度从n维降到n'维

机器学习基础与实践（三）----数据降维之PCA

写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了.本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法解释PCA,并举一个实例一步步计算,然后再进行数学推导,最后再介绍一些变种以及相应的程序.(数学推导及变种下次再写好了) 正文: 在数据处理中,经常会遇到特征维度比样本数量多得多的情况,如果拿到实际工程中去跑,效果不一定好.一是因为冗余的特征会带来一些噪音,影响计算的结果:二是因为无关的特征会加大计

数据降维技术（1）—PCA的数据原理

PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维.网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理.这篇文章的目的是介绍PCA的基本数学原理,帮助读者了解PCA的工作机制是什么. 当然我并不打算把文章写成纯数学文章,而是希望用直观和易懂的方式叙述PCA的数学原理,所以整个文章不会引入严格的数学推导.希望读者在

深度学习笔记——PCA原理与数学推倒详解

PCA目的:这里举个例子,如果假设我有m个点,{x(1),...,x(m)},那么我要将它们存在我的内存中,或者要对着m个点进行一次机器学习,但是这m个点的维度太大了,如果要进行机器学习的话参数太多,或者说我要存在内存中会占用我的较大内存,那么我就需要对这些个点想一个办法来降低它们的维度,或者说,如果把这些点的每一个维度看成是一个特征的话,我就要减少一些特征来减少我的内存或者是减少我的训练参数.但是要减少特征或者说是减少维度,那么肯定要损失一些信息量.这就要求我在减少特征或者维度的过程当中呢,尽

PCA、ZCA白化

白化是一种重要的预处理过程,其目的就是降低输入数据的冗余性,使得经过白化处理的输入数据具有如下性质:(i)特征之间相关性较低:(ii)所有特征具有相同的方差. 白化又分为PCA白化和ZCA白化,在数据预处理阶段通常会使用PCA白化进行去相关操作(降低冗余,降维),而ZCA则只是去相关,没有降维. 区别如下: PCA白化ZCA白化都降低了特征之间相关性较低,同时使得所有特征具有相同的方差. ,ZCA白化只需保证方差相等. 2. PCA白化可进行降维也可以去相关性,而ZCA白化主要用于去相关性另

PCA 协方差矩阵特征向量的计算

人脸识别中矩阵的维数n>>样本个数m. 计算矩阵A的主成分,根据PCA的原理,就是计算A的协方差矩阵A'A的特征值和特征向量,但是A'A有可能比较大,所以根据A'A的大小,可以计算AA'或者A'A的特征值,原矩阵和其转置矩阵的特征值是一样的,只是特征向量不一样. 假如我们的数据按行存放,A是m*n的矩阵,n>>m,m是样本个数,n是维数,则协方差矩阵应该是A'A,A'A是n*n维的一个矩阵,这个矩阵非常大,不利于求特征值和特征向量,所以先求AA'的特征值,它是一个m*m维的矩阵.

plink如何计算Pca

热门专题