PCA主成分分析理解

一、理论概述

1）问题引出

先看如下几张图：

　　从上述图中可以看出，如果将3个图的数据点投影到x1轴上，图1的数据离散度最高，图3其次，图2最小。数据离散性越大，代表数据在所投影的维度上具有越高的区分度，这个区分度就是信息量。如果我们用方差来形容数据的离散性的话，就是数据方差越大，表示数据的区分度越高，也就是蕴含的信息量是越大的。

　　基于这个知识，如果对数据进行降维的话，图1投影到x1轴上面，数据的离散度最大；图2投影到x2轴上离散度最大，图3呢？图3需要找到一个新的坐标轴，使其投影到上面的数据方差最大，如下图所示：

从上面图中可以看出，在新的坐标轴上进行投影的话，图3可以选择一个离散度最大的轴进行投影，在尽量保留最多信息量的情况下，进行了数据降维。

如何找到这样的坐标轴呢？

经过数学上的推导的可以知道，特征值对应的特征向量就是理想中想取得正确的坐标轴，而特征值就等于数据在旋转之后的坐标上对应维度上的方差。也就是说，直接求出矩阵A的特征值及其对应的特征向量，就能找到旋转后正确的坐标轴。例如取前k个最大特征值对应的特征向量作为新轴的话，就是将数据降维到k维空间，特征值描述对应特征向量方向上包含的信息量，前k个特征值之和除以总的特征值之和，就是降维后保留原信息的比例。

补充知识：何为一个向量在另外一个向量上的投影？

如上图所示，u向量在v向量上的投影就是从u向量向v向量方向上做垂线，其长度就是原点到垂点的距离，方向与v向量方向一致，公式表示如下：

从公式上看，其投影后的长度就等于u的长度乘以cosθ，也就是原点到垂点的距离，向量表示就是v所示方向上的单位向量乘以投影后的长度即可。

2）PCA思想

PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分，是在原有n维特征的基础上重新构造出来的k维特征。PCA的工作就是从原始的空间中顺序地找一组相互正交的坐标轴，新的坐标轴的选择与数据本身是密切相关的。其中，第一个新坐标轴选择是原始数据中方差最大的方向，第二个新坐标轴选取是与第一个坐标轴正交的平面中使得方差最大的，第三个轴是与第1,2个轴正交的平面中方差最大的。依次类推，可以得到n个这样的坐标轴。通过这种方式获得的新的坐标轴，我们发现，大部分方差都包含在前面k个坐标轴中，后面的坐标轴所含的方差几乎为0。于是，我们可以忽略余下的坐标轴，只保留前面k个含有绝大部分方差的坐标轴。事实上，这相当于只保留包含绝大部分方差的维度特征，而忽略包含方差几乎为0的特征维度，实现对数据特征的降维处理。

如何得到这些包含最大差异性的主成分方向呢？

通过计算数据矩阵的协方差矩阵，然后得到协方差矩阵的特征值与特征向量，选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。这样就可以将数据矩阵转换到新的空间当中，实现数据特征的降维。

如上图所示，二维空间中最多可以找到两个特征值与特征向量，注意这里面的特征向量的维度依然跟原数据空间一致，因为还是原数据空间的向量。如果原数据是3维的，则特征向量还是3维的，但是可以找到两个最大的特征值及其对应的特征向量，然后原数据就可以在这两个特征向量所表示的空间上进行映射了，从而将原数据由3维降到2维。

如何得到协方差矩阵的特征值特征向量？

PCA算法有两种实现方法：基于特征值分解协方差矩阵实现PCA算法、基于SVD分解协方差矩阵实现PCA算法。

二、特征值分解矩阵

对于矩阵A，有一组特征向量v，将这组向量进行正交化单位化，就能得到一组正交单位向量。特征值分解，就是将矩阵A分解为如下式：

其中，Q是矩阵A的特征向量组成的矩阵， $\Sigma$ 则是一个对角阵，对角线上的元素就是特征值，里面的特征值是由大到小排列的，这些特征值所对应的特征向量就是描述这个矩阵变换方向（从主要的变化到次要的变化排列）。

具体步骤如下：

输入：数据集X={x1,x2,x3...,xn}，需要降到k维。
1) 去平均值(即去中心化)，即每一位特征减去各自的平均值。、

2) 计算协方差矩阵，最后协方差矩阵可以处以样本数。

3) 用特征值分解方法求协方差矩阵的特征值与特征向量。

4) 对特征值从大到小排序，选择其中最大的k个。然后将其对应的k个特征向量分别作为行向量组成特征向量矩阵P。

5) 将数据转换到k个特征向量构建的新空间中，即Y=PX。

举例如下：

总结：特征值分解可以得到特征值与特征向量，特征值表示的是这个特征到底有多么重要，而特征向量表示这个特征是什么。不过，特征值分解也有很多的局限，比如说变换的矩阵必须是方阵。

三、SVD(Singular Value Decomposition)分解，也叫奇异值分解

利用特征值分解提取特征矩阵是一个容易理解且便于实现的方法。但是为什么还存在奇异值分解呢？特征值分解最大的问题是只能针对方阵，即n*n的矩阵。而在实际的应用中，我们分解的大部分都不是方阵。奇异值分解是一个能适用于任意矩阵的一种分解的方法，对于任意矩阵A总是存在一个奇异值分解：

A是m*n的矩阵。

U是m*m的正交矩阵，U里面的正交向量被称为左奇异向量。

Σ是m*n的对角阵，对角线以外的元素都为0，对角线上的元素称为奇异值，奇异值一般从大到小排列。

V^T是n*n的正交矩阵，它是V的转置矩阵，它里面的正交向量被称为右奇异值向量。

如何求解左奇异向量、右奇异向量、奇异值呢？

由上面的奇异值分解等式，我们是不知道如何拆分矩阵A的。我们可以把奇异值和特征值联系起来。

首先，我们用矩阵A的转置乘以A，得到一个方阵，用这样的方阵进行特征分解，得到的特征值和特征向量满足下面的等式：

这里的v_i就是我们要求的右奇异向量。

其次，我们将A和A的转置做矩阵的乘法，得到一个方阵，用这样的方阵进行特征分解，得到的特征和特征向量满足下面的等式：

这里的u_i就是左奇异向量。

证明如下：

∵ A=UΣV^TA^T=VΣ^TU^T

∴ A^TA=VΣ^TU^TUΣV^T=VΣ^TΣV^T=VΣ²V^T

因为V是正交矩阵，所以V^T=V^-1,参考上面（二）特征值分解的公式可知，V就是A^TA的特征向量，奇异值的平方就等于A^TA的特征值。

SVD分解后维度似乎并没有减少，如何应用呢？

在奇异值分解矩阵中Σ里面的奇异值按从大到小的顺序排列，奇异值从大到小的顺序减小的特别快。在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上。也就是说，剩下的90%甚至99%的奇异值几乎没有什么作用。因此，我们可以用前面r个大的奇异值来近似描述矩阵，于是奇异值分解公式可以写成如下：

其中r是一个远远小于m和n的数，右边的三个矩阵相乘的结果将会使一个接近A的矩阵。如果r越接近于n，则相乘的结果越接近于A。如果r的取值远远小于n，从计算机内存的角度来说，右边三个矩阵的存储内存要远远小于矩阵A的。所以在奇异值分解中r的取值很重要，就是在计算精度和时间空间之间做选择。

SVD的应用：

1)降维。

通过奇异值分解的公式，我们可以很容易看出来，原来矩阵A的特征有n维。经过SVD分解后，可以用前r个非零奇异值对应的奇异向量表示矩阵A的主要特征，这样就把矩阵A进行了降维。

2)压缩。

通过奇异值分解的公式，我们可以看出来，矩阵A经过SVD分解后，要表示原来的大矩阵A，我们只需要存储U、Σ、V三个较小的矩阵即可。而这三个较小规模的矩阵占用内存上也是远远小于原有矩阵A的，这样SVD分解就起到了压缩的作用。

SVD的优点：

1）有些SVD算法可以不先求协方差矩阵，而直接求出右奇异矩阵V，在样本量很大的情况下非常有效，节省了计算。

2）特征值分解分解方法其实只是用到了SVD中的左奇异矩阵，而没有用到右奇异矩阵。左奇异矩阵可以多行数进行降维（参考特征值分解的例子），右奇异矩阵可以对列数降维，也就是说SVD既可以对函数降维还可以对列数降维。

参考文献：https://blog.csdn.net/program_developer/article/details/80632779

PCA主成分分析理解的更多相关文章

用PCA(主成分分析法)进行信号滤波
用PCA(主成分分析法)进行信号滤波此文章从我之前的C博客上导入,代码什么的可以参考matlab官方帮助文档现在网上大多是通过PCA对数据进行降维,其实PCA还有一个用处就是可以进行信号滤波.网上 ...
机器学习之PCA主成分分析
前言以下内容是个人学习之后的感悟,转载请注明出处~ 简介在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性.人们自然希望变量个数较少而得到的信息较多.在很 ...
PCA主成分分析（上）
PCA主成分分析 PCA目的最大可分性(最大投影方差) 投影优化目标关键点推导为什么要找最大特征值对应的特征向量呢? 之前看3DMM的论文的看到其用了PCA的方法,一开始以为自己对于PCA已 ...
PCA主成分分析Python实现
作者:拾毅者出处:http://blog.csdn.net/Dream_angel_Z/article/details/50760130 Github源代码:https://github.com/c ...
机器学习 - 算法 - PCA 主成分分析
PCA 主成分分析原理概述用途 - 降维中最常用的手段目标 - 提取最有价值的信息( 基于方差 ) 问题 - 降维后的数据的意义 ? 所需数学基础概念向量的表示基变换协方差矩阵协方差优 ...
PCA(主成分分析)方法浅析
PCA(主成分分析)方法浅析降维.数据压缩找到数据中最重要的方向:方差最大的方向,也就是样本间差距最显著的方向在与第一个正交的超平面上找最合适的第二个方向 PCA算法流程上图第一步描述不正确, ...
关于PCA主成分分析的一点理解
PCA 即主成分分析技术,旨在利用降维的思想,把多指标转化为少数几个综合指标. 假设目前我们的数据特征为3,即数据维度为三,现在我们想将数据降维为二维,一维: 我们之前的数据其实就是三维空间中的一个个 ...
PCA(主成分分析)的简单理解
PCA(Principal Components Analysis),它是一种“投影(projection)技巧”,就是把高维空间上的数据映射到低维空间.比如三维空间的一个球,往坐标轴方向投影,变成了 ...
PCA主成分分析方法
PCA: Principal Components Analysis,主成分分析. 1.引入在对任何训练集进行分类和回归处理之前,我们首先都需要提取原始数据的特征,然后将提取出的特征数据输入到相应的 ...

随机推荐

Shopping Bands Rank & SBR
Shopping Bands Rank SBR https://www.guiderank.org/index.html Nike Air Zoom Pegasus 34 http://www.shi ...
[C/C++] C++ Primer学习笔记
记录下自己掌握不清楚的概念和用法... Day 1 endl:具有输出换行的效果,并刷新与设备相关联的缓冲区. 注:在调试程序过程中插入的输出语句都应刷新输出流,否则可能会造成程序崩溃,将会导致程序出 ...
[OS] Linux进程、线程通信方式总结
转自:http://blog.sina.com.cn/s/blog_64b9c6850100ub80.html Linux系统中的进程通信方式主要以下几种: 同一主机上的进程通信方式 * UNIX进程 ...
mybatis的setting
在mybaits中,setting的的配置参数如下(如果不在配置文件中配置将使用默认值): 设置参数描述有效值默认值 cacheEnabled 该配置影响的所有映射器中配置的缓存的全局开关 tr ...
数据库事物 jdbc事物 spring事物隔离级别:脏幻不可重复读
1.数据库事物: 事物的概念 a给b打100块钱的例子 2.jdbc事物: 通过下面代码实现 private Connection conn = null; private PreparedState ...
Finding LCM LightOJ - 1215 （水题）
这题和这题一样......只不过多了个数... Finding LCM LightOJ - 1215 https://www.cnblogs.com/WTSRUVF/p/9316412.html #i ...
C++ 数据结构概念
C++ 数据结构概念数据结构起源计算机从解决数值计算问题到解决生活中的问题现实生活中的问题涉及不同个体间的复杂联系需要在计算机程序中描述生活中个体间的联系数据结构主要研究非数值计算程序问题中 ...
vs2013 查找进行的过程中被停止
VS"Find in Files"失效的解决方法一:让VS窗口获得焦点,依次按以下快捷键Ctrl+BreakCtrl+Scroll LockAlt+Break VS"Fi ...
【刷题】洛谷 P3613 睡觉困难综合征
题目背景刚立完Flag我就挂了WC和THUWC... 时间限制0.5s,空间限制128MB 因为Claris大佬帮助一周目由乃通过了Deus的题,所以一周目的由乃前往二周目世界找雪辉去了由于二周目 ...
洛谷 P4009 汽车加油行驶问题解题报告
P4009 汽车加油行驶问题题目描述给定一个$N×N$的方形网格,设其左上角为起点◎,坐标(1,1) ,$X$轴向右为正,$Y$轴向下为正,每个方格边长为1 ,如图所示. 一辆汽车从起 ...

PCA主成分分析理解

PCA主成分分析理解的更多相关文章

随机推荐

热门专题