PCA revisit

都知道PCA可以做降维，那它为什么可以降维，究竟是怎么降维的呢？

1. 为什么我们要降维？

我们的样本数据好好的，为什么要去做降维，第一个要想清楚这个问题。

也许你是要训练一个分类器，觉得当前特征维度的太高，想去除冗余的维度，选择有区分性的维度
也许你是觉得维度太高，导致系统速度慢，存储开销大
也许你是觉得数据里面有噪声，想去除噪声

总之很多原因导致我们要去做降维，但是有两个主要的因素，就是去除数据里的冗余和噪声。

2. PCA是怎么去做降维的，怎么去除冗余和噪声的？

PCA有一个假设，数据中越是有区分度的维度，他的方差越大，例如我们的信号本身。越是没有区分度的维度，方差越小能量越小，例如噪声；

另外，如果两个维度相关性很高，那么其中一个维度就是冗余的，对于学习分类器没有很大的帮助，例如一个大学生的成绩里面，他的线性代数的成绩，和他的矩阵分析的成绩这两个相关性就很高，分类器只需要其中的一个来判断这个学生是工科生还是文科生。

综合以上两点，我们降维之后的数据一定要每个维度的方差大，同时维度之间的相关性小。

如何描述方差和相关性，有一个东西可以同时描述他们两——协方差矩阵！

协方差矩阵是一个方阵，i，j列表示样本的第 i 维和第 j 维之间的相关性 ( i = j 时描述的是第 i 维的方差)。

因此，理想的协方差矩阵的对角线应该是很大的值，而非对角线的位置都接近于0，这样才能保证方差大，相关性小呀！

如果当前样本的协方差矩阵已经是对角矩阵了，那我们就不用做PCA降维了，因为他们的特性已经很好了！很不幸，我们的数据通常都不是那么好，协方差矩阵不是理想的样子，很可能相关性很大。那么很明确，我们要做的就是使得降维之后的数据协方差矩阵是对角矩阵。

那么就要做矩阵对角化呗，什么方法可以得到对角矩阵，这个就是特征值分解，

A = P * B * P(T) （1）

B就是对角化的矩阵，A是原协方差矩阵，而我们知道B对角线上都是特征值，P里面都是对应的特征向量。如果我们降维之后的协方差矩阵张成B这个样就好了！

说到这里，协方差矩阵的公式还没提呢。

C = S(T) * S / (m - 1)；（2）

C是协方差矩阵, S是m * d的样本数据矩阵，代表我们有m个样本，每个样本的维度是d。

那么当前有

A = S(T) * S / (m - 1)；（3）

我们想要的是

B = S’(T) * S’ / (m - 1)；（4）

S’就是我们降维之后的样本数据。我们把公式(1) A = P * B * P(T)，变一个样子就是 P(T) * A * P = B; 结合式子（3），于是乎

B = P(T) * A * P = P(T) * S(T) * S * P / (m - 1) = (SP)(T) * (SP) / (m - 1)；再结合式子（4）

SP不就是我们想要的降维之后的数据S'吗？这里，如果把P中的特征向量去掉几个特征值低的，那么不仅选出了方差大的数据，还去除了冗余。因此，PCA就达到了目的了。

3. 总结

所以降维的公式也出来了， S’ = S * P，P是特征值大的维度对应的特征向量。

这是今天看完PCA之后的一点小总结，关于如何做特征值分解，今天也看了许久，感觉要补充的矩阵只是还是很有一些的。

贴一下http://mathfaculty.fullerton.edu/mathews/n2003/QRMethodMod.html 提到的用QR method来做特征值分解的伪代码。

QR Algorithm. The pseudocode for the QR method is:

1.  i = 0
        2.
        3.  repeat
        4.       Factor
        5.
        6.            i = i+1
        7.  until convergence

迭代的方式用QR分解来求特征值。这都是题外话了！

总之，我们需要理解PCA为什么能用协方差矩阵做特征值分解来求解，为什么这样做降维的结果就是好的结果，认真理解了才能更有效地使用它。

PCA revisit的更多相关文章

用scikit-learn学习主成分分析(PCA)
在主成分分析(PCA)原理总结中,我们对主成分分析(以下简称PCA)的原理做了总结,下面我们就总结下如何使用scikit-learn工具来进行PCA降维. 1. scikit-learn PCA类介绍 ...
主成分分析（PCA）原理总结
主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一.在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用.一般我们提到降维最容易想到的算法就 ...
机器学习基础与实践（三）----数据降维之PCA
写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了.本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法 ...
数据降维技术（1）—PCA的数据原理
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
深度学习笔记——PCA原理与数学推倒详解
PCA目的:这里举个例子,如果假设我有m个点,{x(1),...,x(m)},那么我要将它们存在我的内存中,或者要对着m个点进行一次机器学习,但是这m个点的维度太大了,如果要进行机器学习的话参数太多, ...
PCA、ZCA白化
白化是一种重要的预处理过程,其目的就是降低输入数据的冗余性,使得经过白化处理的输入数据具有如下性质:(i)特征之间相关性较低:(ii)所有特征具有相同的方差. 白化又分为PCA白化和ZCA白化,在数据 ...
PCA 协方差矩阵特征向量的计算
人脸识别中矩阵的维数n>>样本个数m. 计算矩阵A的主成分,根据PCA的原理,就是计算A的协方差矩阵A'A的特征值和特征向量,但是A'A有可能比较大,所以根据A'A的大小,可以计算AA'或 ...
【统计学习】主成分分析PCA(Princple Component Analysis)从原理到实现
[引言]--PCA降维的作用面对海量的.多维(可能有成百上千维)的数据,我们应该如何高效去除某些维度间相关的信息,保留对我们"有用"的信息,这是个问题. PCA给出了我们一种解决 ...
主成分分析 (PCA) 与其高维度下python实现(简单人脸识别)
Introduction 主成分分析(Principal Components Analysis)是一种对特征进行降维的方法.由于观测指标间存在相关性,将导致信息的重叠与低效,我们倾向于用少量的.尽可 ...

随机推荐

【转】SAP 各种记账凭证的更改&冲销
一:更改 1,已经过帐的 FB02. 过完帐的允许更改的地方有限,只有凭证抬头文本,参照,分配,文本,原因代码等 2,预制凭证的更改. FBV2. 预制凭证可以更改的地方很多,只有凭证编码+公司代码+ ...
Java 实现文件复制的不同方法
用不同的方法实现文件的复制 1. 通道 Channel,它是一个对象,可以通过它读取和写入数据.拿NIO与原来的I/O比较,通道就像是流.是对接操作系统底层和缓冲区的桥梁. 2. 性能比较内存映射最 ...
python基础：8.正则表达式
1.概念正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑. re模块的常见方法: ...
Ubuntu14.04安装Ruby2.2方法
直接使用系统的sudo apt-get install ruby2.0安装后,ruby -v显示ruby的版本依然是ruby 1.9. 以下方法可以顺序地在Ubuntu14.04安装Ruby2.2 s ...
Struts2基础-3 -继承ActionSupport接口创建Action控制器+javaBean接收请求参数+ 默认Action配置处理请求错误 + 使用ActionContext访问ServletAPI
1.目录结构及导入的jar包 2.web.xml 配置 <?xml version="1.0" encoding="UTF-8"?> <web ...
orcale获取表、字段信息
获取表字段: select * from user_tab_columns where Table_Name='用户表' order by column_name 获取表注释: select * fr ...
[CF1161F]Zigzag Game
通过这道模板题学了一种新的模型,记录一下. 稳定婚姻匹配至于这道题,显然是一个二分图博弈的模型.考虑选择Bob,我们要找一组匹配使得任何情况下Bob都有匹配边能走.不失一般性假设Alice选择了in ...
spring boot 尚桂谷学习笔记11 数据访问03 JPA
整合JPA SpringData 程序数据交互结构图 (springdata jpa 默认使用 hibernate 进行封装) 使用之后就关注于 SpringData 不用再花多经历关注具体各个交互框 ...
selenuim,webdriver 基础3
代码要多敲注释要清晰哪怕很简单对基础1和2 的补充可以结合1和2来学习 from selenium import webdriver #生成浏览器对象 driver = webdriver.P ...
TypeError: write() argument must be str, not bytes报错
TypeError: write() argument must be str, not bytes 之前文件打开的语句是: with open('C:/result.pk','w') as fp: ...

PCA revisit

PCA revisit的更多相关文章

随机推荐

热门专题