PCA--主成份分析
主成份分析(Principle Component Analysis)主要用来对数据进行降维。对于高维数据,处理起来比较麻烦,而且高维数据可能含有相关的维度,数据存在冗余,PCA通过把高维数据向低维映射的同时尽可能保留数据蕴含的信息,到达简化数据的目的。
假设原始数据表示为$\{{{x}_{1}},{{x}_{2}},\cdots ,{{x}_{n}}\}$共$n$个数据,${{x}_{i}}$是$d$维的,现在首先分析PCA如何将它映射到一维,再推广到多维。
为了将数据向一维映射,需要解决两个问题,一是向那个方向映射,而是确定方向后如何映射。我们倒着来,先考虑第二个问题,再来说第一个。
另外,使用PCA之前通常要对数据不同维度进行归一化,消除不同维度尺度的影响。
1、 对数据${{x}_{i}}$进行变换${{x}_{i}}^{\prime }={{x}_{i}}-m$ ,其中$m$ 为样本均值。这一步使得数据均值为$\vec{0}$ ;
2、 进一步变换${{x}_{i}}^{\prime \prime }={{{x}_{ij}}^{\prime }}/{{{\sigma }_{j}}}\;$ 其中${{\sigma }_{j}}$为数据第$j$ 维的标准差,这一步使得数据各个维度的标准差为1;
经过以上两步,样本不同维度的尺度对PCA的影响基本消除了。为何要消除不同维度影响,可以结合下文从样本方差的角度理解。(方差较低的维度会被方差较高的维度“掩盖”,但这并不能说明前者的含有信息也不如后者)。
下面所有的讨论将假设数据已经进行了归一化,均值$m=\vec{0}$,各个维度方差为1。如果没有归一化,并不影响推导结果,但推导过程稍微复杂一点点。
一、假定映射方向给定,如何映射?
向一维映射就是将原来的$d$维数据映射到一条直线上,现在假设直线的方向给定了,考虑如映射的问题,直观上将,我们首先想到是将原始数据向这个方向做垂直投影,下面将说明我们的直观感觉还是很有道理的。
以上两个图是两种不同的映射,第一个是垂直投影,第二个很奇葩,因为是我画的,但确实也是种映射好吗~哪种映射方式更好呢?这就要考虑PCA的目的了。PCA作用是通过降维来简化数据,但如果简化后的数据不能在后续分析中带来和原始数据近似的结果,那这种简化就是不可取的。所以,映射在降维要尽可能保留数据的内含信息,也就是说映射后的数据要和原始数据尽可能接近,所以可以采用最小误差作为映射的准则。
假设映射的方向表示为单位向量$e$,不失一般性,假设映射后的数据都落在了通过原点的直线上(如果该直线没有通过原点,平移一下就可以了,这并不影响直线上数据的相对位置,数据信息是等同的,直线的方向是关键,平移什么的无所谓~~大概就这个意思~~,另外在假设数据已经归一化的条件下,样本均值也在原点),那么映射后的数据可以表示为$\{{{\alpha }_{1}}e,{{\alpha }_{2}}e,\cdots ,{{\alpha }_{n}}e\}$ ,${{\alpha }_{i}}e$ 形式上仍然是$d$维的,但所有${{\alpha }_{i}}e$在一条直线上,所以映射后的数据实际上是一维的,这里仍写成$d$的表示是为了方便写出误差函数。给定了映射方向$e$,确定映射就是确定$\alpha {}_{i}$,所以误差函数写作\[\begin{align}J({{\alpha }_{1}},{{\alpha }_{2}},\cdots ,{{\alpha }_{3}})&=\sum\limits_{i=1}^{n}{{{\left\| {{\alpha }_{i}}e-{{x}_{i}} \right\|}^{2}}} \\& =\sum\limits_{i=1}^{n}{\alpha _{i}^{2}}-\sum\limits_{i=1}^{n}{2{{\alpha }_{i}}{{e}^{T}}{{x}_{i}}}+\sum\limits_{i=1}^{n}{x_{i}^{T}{{x}_{i}}} \\\end{align}\]
目的是要使得误差函数最小。这显然是关于${{\alpha }_{i}}$的凸函数,所以对${{\alpha }_{i}}$求偏导数,令其为0,可得到解\[\begin{align}{{\alpha }_{i}}={{e}^{T}}{{x}_{i}}\end{align}\]
这说明什么呢?这说明映射后的数据点正好是原始数据点向方向$e$的垂直投影。这就解决了给定方向后如何投影的问题——垂直投影,投影后原始数据${{x}_{i}}$表示为一维的数据${{\alpha }_{i}}$。
二、向哪个方向投影?
上文解决了给定方向$e$,如何映射数据的问题,现在从两个角度讨论如何确定$e$。
角度1:最小误差准则
仍然以最小误差(1)为准则来确定$e$,不同的是现在$e$是求解变量,${{\alpha }_{i}}$ 是(3)给定的确定值。重写误差函数为(2)为 \[\begin{align}J(e) &=\sum\limits_{i=1}^{n}{\alpha _{i}^{2}}-\sum\limits_{i=1}^{n}{2{{\alpha }_{i}}{{e}^{T}}{{x}_{i}}}+\sum\limits_{i=1}^{n}{x_{i}^{T}{{x}_{i}}} \notag\\& =\sum\limits_{i=1}^{n}{{{e}^{T}}{{x}_{i}}x_{i}^{T}e}-\sum\limits_{i=1}^{n}{2{{e}^{T}}{{x}_{i}}x_{i}^{T}e}+\sum\limits_{i=1}^{n}{x_{i}^{T}{{x}_{i}}}\notag \\& =-\sum\limits_{i=1}^{n}{{{e}^{T}}{{x}_{i}}x_{i}^{T}e}+\sum\limits_{i=1}^{n}{x_{i}^{T}{{x}_{i}}} \\\end{align}\]
记$S=\sum\limits_{i=1}^{n}{({{x}_{i}}-m){{({{x}_{i}}-m)}^{T}}}=\sum\limits_{i=1}^{n}{{{x}_{i}}x_{i}^{T}}$(假设样本均值为$\vec{0}$ ),称为样本的散布矩阵,它比样本的协方差矩阵就差个常数,代表样本分散程度。将散布矩阵带入(4)得到误差函数 \[\begin{align}J(e)=-{{e}^{T}}Se+\sum\limits_{i=1}^{n}{x_{i}^{T}{{x}_{i}}}\end{align}\]
最小化$J(e)$ 等价于最小化$-{{e}^{T}}Se$,所以进一步简化(5)为\[\begin{align}J(e)=-{{e}^{T}}Se\end{align}\]
另外,由于我们规定$e$是单位向量,所以最小化(6)是含有等式约束${{e}^{T}}e=1$ 的优化问题,写出对应拉格朗日函数\[\begin{align}J(e,\lambda )=-{{e}^{T}}Se+\lambda {{e}^{T}}e\notag\end{align}\]
对$e$求偏导数并令其为0,得到 \[\begin{align}Se=\lambda e\end{align}\]
说明要求解的$e$ 正好是样本散布矩阵的特征向量,$\lambda $ 为对应的特征值。将(7)代回(6)得到\[\begin{align}J(e)=-{{e}^{T}}Se=-\lambda\notag\end{align}\]
所以要是误差函数最小,$\lambda $ 应该为最大特征值,$e$应该为散布矩阵$S$最大特征值对应的特征向量。
角度2:最大方差
现在换一个角度,来考虑映射完成后数据的方差,这方差越大越好,因为投影方式已经给定(垂直投影),那么投影后数据方差越大,就说明投影后的数据跟好地反映了原始数据的分布特性。原始数据${{x}_{i}}$投影后对应的数据为${{\alpha }_{i}}={{e}^{T}}{{x}_{i}}$ ,那么投影后数据的方差为\[\begin{align}D(e) &=\sum\limits_{i=1}^{n}{\alpha _{i}^{2}}\notag \\& =\sum\limits_{i=1}^{n}{{{e}^{T}}{{x}_{i}}x_{i}^{T}e}\notag \\& ={{e}^{T}}Se \notag\\\end{align}\]
可见最大化$D(e)$ 和最小化(5)(6)是一致的。
另外可以将(5)式$J(e)$和$D(e)$相加看看,结果为$J(e)=-{{e}^{T}}Se+\sum\limits_{i=1}^{n}{x_{i}^{T}{{x}_{i}}}$,是原始数据的方差(假设均数据均值为$\vec{0}$ )。而$D(e)$为映射后数据的方差,$J(e)$则可以理解为映射过程对数据方差造成的损失,从这个角度也说明了最大化$D(e)$和最小化$J(e)$的等价性,一句话,映射最大程度保留数据的方差,方差就是变化,变化才体现数据的信息。
三、 总结
经过以上两步,原始数据向一维数据映射的过程就完成了。先计算散布矩阵$S$的最大特征值对于的归一化特征向量$e$,然后计算投影结果${{\alpha }_{i}}={{e}^{T}}{{x}_{i}}$。
显然,只向一维映射可能会损失数据好多的信息,这取决于数据本身的分布。一般情况下还是要多向几个维度映射一下,将原来的数据映射为3维,4维等等。具体映射到几维没有标准,映射维度越高,越能保留原始的数据形象,但也越起不到降维简化数据的目的,所以需要两者之间一个权衡~
怎么向更高维映射呢?和一维类推一下就知道,如果要映射到$p$维,这$p$个方向应该是散步矩阵最大$p$个特征值对应的特征向量所决定的方向。
记\[X=\left[ \begin{matrix}x_{1}^{T} \\x_{2}^{T} \\\vdots \\x_{n}^{T} \\\end{matrix} \right]\] ,散步矩阵前$p$个最大特征值对应的规范化特征向量为$E=\left[ \begin{matrix}{{e}_{1}}, & {{e}_{2}}, & \cdots , & {{e}_{p}} \\\end{matrix} \right]$ ,那么PCA过程可以写作 \[Y=XE\]
$Y$ 的每一行为映射后的一个数据点。
此外,$Y$可以表示为\[\begin{align}Y& =\left[ {{Y}_{1}},{{Y}_{2}},\cdots ,{{Y}_{n}} \right] \notag\\& =[X{{e}_{1}},X{{e}_{2}},\cdots ,X{{e}_{n}}] \notag\\\end{align}\]
所以\[{{Y}_{i}}=X{{e}_{i}}=X{{e}_{i1}}+X{{e}_{i2}}+\cdots +X{{e}_{in}}\]
${{Y}_{i}}$ 即是第$i$ 个主成份,它是原数据的一个线性组合。
散布矩阵的特征向量体现数据的变化方向,越大特征值对应的特征向量越体现数据的主要变化方向,所以映射后的每一维所蕴含的原始数据信息是递减的,原始数据主要信息都体现在映射后前面几个维度上,这也是映射过程依次按照特征值大小选取映射方向的原因。对于$p$的选择没有严格的金标准,但还是有一些经验法则,比如Kaiser-Harris法则建议选取大于1的特征值对应的特征向量。
PCA--主成份分析的更多相关文章
- PCA主成份分析
1 背景介绍 真实的训练数据总是存在各种各样的问题: 1. 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余. 2. ...
- pca主成份分析方法
1.应用pca的前提 应用pca的前提是,连续信号具有相关性.相关性是什么,是冗余.就是要利用pca去除冗余. 2.pca的定义 pca是一种去除随机变量间相关性的线性变换.是一种常用的多元数据分析方 ...
- Spark 2.0 PCA主成份分析
PCA在Spark2.0中用法比较简单,只需要设置: .setInputCol(“features”)//保证输入是特征值向量 .setOutputCol(“pcaFeatures”)//输出 .se ...
- 【主成份分析】PCA推导
### 主成份分析(Pricipal components analysis PCA) 假设空间$R^{n}$中有m个点{$x^{1},......,x^{n}$},希望压缩,对每个$x^{i}$都有 ...
- PCA主成份分析学习记要
前言 主成份分析,简写为PCA(Principle Component Analysis).用于提取矩阵中的最主要成分,剔除冗余数据,同时降低数据纬度.现实世界中的数据可能是多种因数叠加的结果,如果这 ...
- principal components analysis 主成份分析
w http://deeplearning.stanford.edu/wiki/index.php/主成份分析 主成分分析(PCA)及其在R里的实现 - jicf的日志 - 网易博客 http:// ...
- 主成份分析PCA
Data Mining 主成分分析PCA 降维的必要性 1.多重共线性--预测变量之间相互关联.多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯. 2.高维空间本身具有稀疏性.一维正态分布有6 ...
- 吴裕雄 python 机器学习——主成份分析PCA降维
# -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt from sklearn import datas ...
- PCA(主成分析)
PCA通过将高维空间向量映射到低维,对于数据进行处理
随机推荐
- Java HashMap详细介绍和使用示例
①对HashMap的整体认识 HashMap是一个散列表,它存储的内容是键值对(key-value)映射. HashMap继承于AbstractMap,实现了Map.Cloneable.java.io ...
- iOS开发之HelloKit代码片段
完整代码托管:https://github.com/1042710553/HelloKit.git /************************/plist/****************** ...
- ffmpeg下载安装和简单应用
先介绍一下ffmpeg:FFmpeg是一个自由软件,可以运行音频和视频多种格式的录影.转换.流功能,包含了libavcodec —这是一个用于多个项目中音频和视频的解码器库,以及libavformat ...
- nuget发布自已的程序集
1.nuget注册并获取apikey 2.下载nuget.exe 3.设置apikey nuget setApiKey <apikey> 4.开发程序集 5.进入.csproj目录生成描述 ...
- Python面试题之Python生成器
首先说明一下生成器也是迭代器,也有迭代器的那些优点. 那为什么要生成器呢?因为到目前为止都 不是你写的迭代器,都是别人定义好的.那如何自己去造一个迭代器呢?下面的内容就会给你答案. 想要自己造一个迭代 ...
- PHP秒杀系统全方位设计分析(一)
秒杀系统特点人多商品少时间短流量高外挂机器[黄牛和非黄牛] 技术分析瞬间高并发的处理能力多层次的分布式处理能力人机交互与对抗[12306验证码图片] 技术选型分析Linux+Nginx+PHP+Mys ...
- 20144303 《Java程序设计》第二次实验实验报告
20144303 <Java程序设计>第二次实验实验报告 北京电子科技学院(besti)实验报告 实验内容 初步掌握单元测试和TDD 理解并掌握面向对象三要素:封装.继承.多态 初步掌握U ...
- PHP设计模式(五): 原型模式
- Student : IComparable<Student> 以及逆变和协变
IComparable<Student>是Student的父类,所以IComparable<Student>可以接收Student.但是在使用CompareTo方法的时候,必须 ...
- 解题报告:poj2689 Prime Distance
2017-10-03 11:29:20 writer:pprp 来源:kuangbin模板 从已经筛选好的素数中筛选出规定区间的素数 /* *prime DIstance *给出一个区间[L,U],找 ...