[数学建模]主成分分析法PCA

最常用的线性降维方法，通过某种线性投影，将高维的数据映射到低维的空间中，并期望在所投影的维度上数据的信息量最大（方差最大），以此使用较少的数据维度，同时保留住较多的原数据点的特性。
Q1:为何选取方差最大的数据维度?
方差大,不同数据的差异就大,表明这个维度的可区分信息量大.
Q2:PCA降维后,数据还是否为原始数据?
不是了,数据已经被映射到新的坐标系
推导:

就是以前用最小二乘法拟合数据时做的事情,最小二乘法求出来的直线（二维）的方向就是u1的方向.u2方向就是跟u1垂直的方向.
太复杂了改天再看原理

步骤如下
1去除平均值
2计算协方差矩阵
3计算协方差矩阵的特征值和特征向量
4将特征值排序
5保留前N个最大的特征值对应的特征向量
6将原始特征转换到上面得到的N个特征向量构建的新空间中（最后两步，实现了特征压缩）

我们一般用SPSS进行主成分分析,步骤见链接:
http://flvb5.cn/E4E6b

也可以用python做,代码如下:

#↓topNfeat是你想取的数据维度数

def pca(dataMat,topNfeat=999999):

    meanVals=np.mean(dataMat,axis=0) #求dataMat各列均值

    meanRemoved=dataMat-meanVals #减去原始数据中的均值，避免协方差计算中出现乘以0的情况

    #↓covMat:协方差矩阵

    covMat=np.cov(meanRemoved,rowvar=0) #rowvar=0-->以列代表一个变量，计算各列之间的协方差

    eigVals,eigVects=np.linalg.eig(np.mat(covMat)) #协方差矩阵的特征值和特征向量

    eigValInd=np.argsort(eigVals)

    eigValInd=eigValInd[:-(topNfeat+1):-1] #对升序排序结果从后往前取topNfeat个值

    redEigVects=eigVects[:,eigValInd] #取选定特征值对应的特征向量，从而转换原始数据

    lowDemData=meanRemoved*redEigVects #将原始数据转换到新空间

    reconMat=(lowDemData*redEigVects.T)+meanVals #降维后的数据集

    return lowDemData,reconMat

效果是这样的:

那么topNfeat该怎么选择呢?也就是说我们通常怎么保留维数呢?
降到3维时,还能保持包含90%以上的信息了.具体保留多少还得看具体要求.

这一篇讲得很易懂:
白话PCA

[数学建模]主成分分析法PCA的更多相关文章

【笔记】主成分分析法PCA的原理及计算
主成分分析法PCA的原理及计算主成分分析法主成分分析法(Principal Component Analysis),简称PCA,其是一种统计方法,是数据降维,简化数据集的一种常用的方法它本身是一 ...
吴恩达机器学习笔记（八） —— 降维与主成分分析法(PCA)
主要内容: 一.降维与PCA 二.PCA算法过程三.PCA之恢复四.如何选取维数K 五.PCA的作用与适用场合一.降维与PCA 1.所谓降维,就是将数据由原来的n个特征(feature)缩减为k ...
【机器学习】主成分分析法 PCA （II）
主成分分析法(PAC)的优化——选择主成分的数量根据上一讲,我们知道协方差为① 而训练集的方差为②. 我们希望在方差尽可能小的情况下选择尽可能小的K值. 也就是说我们需要找到k值使得①/②的值尽可能 ...
特征脸是怎么提取的之主成分分析法PCA
机器学习笔记多项式回归这一篇中,我们讲到了如何构造新的特征,相当于对样本数据进行升维. 那么相应的,我们肯定有数据的降维.那么现在思考两个问题为什么需要降维为什么可以降维第一个问题很好理解,假 ...
主成分分析法PCA原理
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
【机器学习】主成分分析法 PCA （I）
主成分分析算法是最常见的降维算法,在PCA中,我们要做的是找到一个方向向量,然后我们把所有的数都投影到该向量上,使得投影的误差尽可能的小.投影误差就是特征向量到投影向量之间所需要移动的距离. PCA的 ...
主成分分析法(PCA)答疑
问:为什么要去均值? 1.我认为归一化的表述并不太准确,按统计的一般说法,叫标准化.数据的标准化过程是减去均值并除以标准差.而归一化仅包含除以标准差的意思或者类似做法.2.做标准化的原因是:减去均值等 ...
降维之主成分分析法（PCA）
一.主成分分析法的思想我们在研究某些问题时,需要处理带有很多变量的数据,比如研究房价的影响因素,需要考虑的变量有物价水平.土地价格.利率.就业率.城市化率等.变量和数据很多,但是可能存在噪音和冗余, ...
用PCA(主成分分析法)进行信号滤波
用PCA(主成分分析法)进行信号滤波此文章从我之前的C博客上导入,代码什么的可以参考matlab官方帮助文档现在网上大多是通过PCA对数据进行降维,其实PCA还有一个用处就是可以进行信号滤波.网上 ...
机器学习回顾篇（14）：主成分分析法（PCA）
.caret, .dropup > .btn > .caret { border-top-color: #000 !important; } .label { border: 1px so ...

随机推荐

Elastic：用 Docker 部署 Elastic Stack
文章转载自:https://elasticstack.blog.csdn.net/article/details/100919273 前提条件首选需要在主机上安装好docker和docker-com ...
使用logstash拉取MySQL数据存储到es中的再次操作
使用情况说明: 已经使用logstash拉取MySQL数据存储到es中,es中也创建了相应的索引,也存储了数据.假若把这个索引给删除了,再次进行同步操作的话要咋做,从最开始的数据进行同步,而不是新增的 ...
几篇关于MySQL数据同步到Elasticsearch的文章---第二篇：canal 实现Mysql到Elasticsearch实时增量同步
文章转载自: https://mp.weixin.qq.com/s?__biz=MzI2NDY1MTA3OQ==&mid=2247484377&idx=1&sn=199bc88 ...
04_第一个Java程序
HelloWorld D盘下新建一个文件夹Java_work,存放代码进入Java_work,新建一个Hello.java文件文件后缀名为.java Hello.java 注意:系统可能没有显示文 ...
企业使用erp系统的好处及解决了什么问题？
不是所有的企业使用ERP都能带来好处的,尤其是对于一些小微企业,带来的可能是灾难,而实施不适用的系统同样也会带来意想不到的后果,所以在ERP的使用方面得根据自己企业实际做决定.不同规模的企业选用不同的 ...
垃圾回收机制GC
垃圾回收机制GC 我们已经知道,name = 'leethon'这一赋值变量的操作,是将变量与数据值相绑定. 而数据值是存储到内存中的,有时变量会重新赋值即绑定其他数据值,而使得原本的数据值无法通过变 ...
华为交换机VLAN常用命令
划分vlan vlan 10 划分Vlan10 vlan batch 30 40 同时创建vlan30和40 dispaly vlan 查看vlan信息 int e0/0/1 进入某一个接口 port ...
Codeforces Round #816 (Div. 2)/CodeForces1715
CodeForces1715 Crossmarket 解析: 题目大意有一个 \(n \times m\) 的空间,Stanley 需要从左上角到右下角:Megan 则需要从左下角到右上角.两人可以 ...
ES6 学习笔记（九）Set的基本用法
1 基本用法 set类似于数组,它的成员是唯一的,当有多个相同的值,只会保留一份. 1.1 创建方法 Set本身是一个构造函数,用来生成Set实例,如: const s = new Set() let ...
pod(九)：污点taint 与容忍度tolerations
目录一.系统环境二.前言三.污点taint 3.1 污点taint概览 3.2 给节点添加污点taint 四.容忍度tolerations 4.1 容忍度tolerations概览 4.2 设置 ...

[数学建模]主成分分析法PCA

[数学建模]主成分分析法PCA的更多相关文章

随机推荐

热门专题