前言

本文为模式识别系列第一篇,主要介绍主成分分析算法(Principal Component Analysis,PCA)的理论,并附上相关代码。全文主要分六个部分展开:

  1)简单示例。通过简单的例子,引出PCA算法;

  2)理论推导。主要介绍PCA算法的理论推导以及对应的数学含义;

  3)算法步骤。主要介绍PCA算法的算法流程;

  4)应用实例。针对PCA的实际应用,列出两个应用实例;

  5)常见问题补充。对于数据预处理过程中常遇到的问题进行补充;

  6)扩展阅读。简要介绍PCA的不足,并给出K-L变换、Kernel-PCA(KPCA)的相关链接。

本文为个人总结,内容多有不当之处,麻烦各位批评指正。

一、简单示例

  A-示例1:降维

先来看一组学生的成绩

  学生1 学生2 学生3 学生4 ... 学生N
语文成绩 85 85 85 85 ... 85
数学成绩 96 93 78 64 ... 97

为了方便分析,我们假设N=5;

  学生1 学生2 学生3 学生4 学生5
语文成绩 85 85 85 85 85
数学成绩 96 93 78 64 97

问题:现在要求大家将成绩与不同学生进行匹配。

按【学生,语文成绩,数学成绩】进行匹配,即:【学生1,85,96】...【学生5,85,97】,可以看到,对于成绩【85,97】,我们很容易匹配出学生5;但仔细观察,他们的语文成绩都是相同的,即仅仅用数学成绩就可以表达出不同学生,即将数据从二维投影至一维

将【语文成绩,数学成绩】压缩成只用【数学成绩】,实现了数据降维,我们将【语文成绩,数学成绩】的二维特征,压缩成【数学成绩】的一维特征,这就是降维。

  B-主成分分析

细心的同学,从上一个图中可以发现:将数据沿方差最大方向投影,数据更易于区分——这就是PCA降维的核心思想。上一个图的误差最大方向即是沿x轴方向。

在进行理论推导以前,再看一个例子,还是之前5个同学的成绩,只不过这次测试他们语文成绩也不再相同:

  学生1 学生2 学生3 学生4 学生5
语文成绩 50 60 70 80 90
数学成绩 80 82 84 86 88

此时如果将二维特征【语文成绩,数学成绩】压缩成1维,仅仅用数学成绩表达似乎不是最佳方案,即使沿着投影方向2,只用语文成绩表达,其分散程度似乎也比不上投影方向1的降维结果。

如何找到最佳的(方差最大,即最分散。这也容易理解,毕竟分散的数据更容易区分开来)降维方式呢?显然最佳方案不总是用语文/数学成绩单一替代,这便需要本文的主角——PCA算法。简而言之:PCA算法其表现形式是降维,同时也是一种特征融合算法。

二、理论推导

进行正式的理论推导之前,先交代几个常用操作的几何意义。

  A-内积与投影

下面先来看一个高中就学过的向量运算:内积。两个维数相同的向量的内积被定义为:

(a1,a2,⋯,an)T⋅(b1,b2,⋯,bn)T=a1b1+a2b2+⋯+anbn(a1,a2,⋯,an)T⋅(b1,b2,⋯,bn)T=a1b1+a2b2+⋯+anbn

内积运算将两个向量映射为一个实数。其计算方式非常容易理解,但是其意义并不明显。下面我们分析内积的几何意义。假设A和B是两个n维向量,我们知道n维向量可以等价表示为n维空间中的一条从原点发射的有向线段,为了简单起见我们假设A和B均为二维向量,则A=(x1,y1),B=(x2,y2)A=(x1,y1),B=(x2,y2)。则在二维平面上A和B可以用两条发自原点的有向线段表示,见下图:

现在我们从A点向B所在直线引一条垂线。我们知道垂线与B的交点叫做A在B上的投影,再设A与B的夹角是a,则投影的矢量长度为|A|cos(a)|A|cos(a),其中|A|=x21+y21−−−−−−√|A|=x12+y12是向量A的模,也就是A线段的标量长度。

注意这里我们专门区分了矢量长度和标量长度,标量长度总是大于等于0,值就是线段的长度;而矢量长度可能为负,其绝对值是线段长度,而符号取决于其方向与标准方向相同或相反。

到这里还是看不出内积和这东西有什么关系,不过如果我们将内积表示为另一种我们熟悉的形式:

A⋅B=|A||B|cos(a)A⋅B=|A||B|cos(a)

现在事情似乎是有点眉目了:A与B的内积等于A到B的投影长度乘以B的模。再进一步,如果我们假设B的模为1,即让|B|=1|B|=1,那么就变成了:

A⋅B=|A|cos(a)A⋅B=|A|cos(a)

也就是说,设向量B的模为1,则A与B的内积值等于A向B所在直线投影的矢量长度!这就是内积的一种几何解释,也是我们得到的第一个重要结论。在后面的推导中,将反复使用这个结论。

  B-基的概念

给出下面这个向量:

在代数表示方面,我们经常用线段终点的点坐标表示向量,例如上面的向量可以表示为(3,2),这是我们再熟悉不过的向量表示。

不过我们常常忽略,只有一个(3,2)本身是不能够精确表示一个向量的。我们仔细看一下,这里的3实际表示的是向量在x轴上的投影值是3,在y轴上的投影值是2。也就是说我们其实隐式引入了一个定义:以x轴和y轴上正方向长度为1的向量为标准。那么一个向量(3,2)实际是说在x轴投影为3而y轴的投影为2。注意投影是一个矢量,所以可以为负。

更正式的说,向量(x,y)实际上表示线性组合:

x(1,0)T+y(0,1)Tx(1,0)T+y(0,1)T

不难证明所有二维向量都可以表示为这样的线性组合。此处(1,0)和(0,1)叫做二维空间中的一组基。

所以,要准确描述向量,首先要确定一组基,然后给出在基所在的各个直线上的投影值,就可以了。只不过我们经常省略第一步,而默认以(1,0)和(0,1)为基。

基就是骨架,基的个数即为撑起给定维度空间的最小向量个数,通常设定基德模为1。

  C-基变换的矩阵表示

但基不是唯一的,例如上一个例子中选(1,0)和(0,1)为基,同样,上面的基可以变为(12√,12√)(12,12)和(−12√,12√)(−12,12)。

现在我们想获得(3,2)在新基上的坐标,即在两个方向上的投影矢量值,就需要利用到基变换的矩阵表示

根据下图,我们只要分别计算(3,2)和两个基的内积,不难得到新的坐标为(52√,−12√)(52,−12)

同样我们可以利用基变换的矩阵表示进行求解:

再举一例:(1,1),(2,2),(3,3),想变换到刚才那组基上,则可以这样表示:

于是一组向量的基变换被干净的表示为矩阵的相乘。

推广成一般性结论:

一般的,如果我们有M个N维向量,想将其变换为由R个N维向量表示的新空间中,那么首先将R个基按行组成矩阵A,然后将向量按列组成矩阵B,那么两矩阵的乘积AB就是变换结果,其中AB的第m列为A中第m列变换后的结果

对应数学表达:

其中pipi是一个行向量,表示第i个基,ajaj是一个列向量,表示第j个原始数据记录。

上述分析同时给矩阵相乘找到了一种物理解释:两个矩阵相乘的意义是将右边矩阵中的每一列列向量变换到左边矩阵中每一行行向量为基所表示的空间中去。这种操作便是降维。
    D-最优基的选取方法

根据上面的分析,可以得出:只要找出合适的p1,p2,...,pRp1,p2,...,pR,就可以实现对特征矩阵的投影,从而实现降维。为了便于分析,我们假设此处数据均已做中心化处理(去均值)。

对于未知的投影向量,我们假设投影变换表示为:

我们希望结果方差最大,即:

又对于投影向量,有p1pT1=1p1p1T=1,从而方差最大化可转化为含有拉格朗日乘子的函数:

为了简化书写,记:

求导并另导数为零,得出最优解:

将上式代入方差表达式,得到:

var1=λvar1=λ

若要方差最大,只要特征值最大即由此可以观察:向量p1p1即为ΣΣ最大特征值所对应的特征向量

同理,p2p2为次大特征值对应的特征向量,依次类推,即可求得投影矩阵。

实际操作中,通常借助特征值分解(eig)或者奇异值分解(SVD)进行投影空间的构造。

(此处为补充内容,可跳过,不影响整体理解)换一种角度,通过奇异值分解的特性,也可以实现投影向量的理论推导

而矩阵的能量为矩阵的迹:

从而方差的大小即为特征值的大小,从而根据特征值依次对应的特征向量,构造投影空间。

  E-特征压缩

根据上面的推导,得到:

从而可以根据给定比例(如0.9)选定投影空间维度K(方式不唯一,此处仅仅给出参考)

假设投影矩阵为P,从而投影后的数据为:

三、算法步骤

  • 步骤一:数据中心化——去均值,根据需要,有的需要归一化——Normalized;
  • 步骤二:求解协方差矩阵;
  • 步骤三:利用特征值分解/奇异值分解 求解特征值以及特征向量;
  • 步骤四:利用特征向量构造投影矩阵;
  • 步骤五:利用投影矩阵,得出降维的数据。

对应第一部分B-主成分分析 小节的成绩,结合算法步骤,给出MATLAB代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
clc;clear all;close all;
set(0,'defaultfigurecolor','w') ;
x = [50 60 70 80 90];
y = [80 82 84 86 88];
figure()
subplot 121
scatter(x,y,'r*','linewidth',5);
xlim([50,100]);
ylim([50,100]);
grid on;
xlabel('语文成绩');
ylabel('数学成绩');
 
data = [x;y];
%步骤一:中心化
mu = mean(data,2);
data(1,:) = data(1,:)-mu(1);
data(2,:) = data(2,:)-mu(2);
%步骤二:求协方差矩阵
R = data*data';
%步骤三:求特征值、特征向量
    %利用:特征值分解
[V,D] = eig(R);
[EigR,PosR] = sort(diag(D),'descend');
VecR = V(PosR,:);
%步骤四:利用特征向量构造投影矩阵
    %假设降到一维
K = 1;
Proj = VecR(1:K,:);
%步骤五:利用投影矩阵,得出降维的数据
DataPCA = Proj*data;
x0 = -30:30;
subplot 122
scatter(data(1,:),data(2,:),'r*','linewidth',5);hold on;
plot(x0,Proj(2)/Proj(1)*x0,'b','linewidth',3);hold on;%绘出投影方向
xlim([-30,30]);
ylim([-30,30]);
grid on;
xlabel('语文成绩');
ylabel('数学成绩');

  对应结果图,可以看出投影变换后新坐标轴的方向,即此时投影的间距最大,与上文分析一致:

对应完整的代码:

  

四、应用实例

  A-示例1:二维数据降维

为例,我们用PCA方法将这组二维数据其降到一维。

因为这个矩阵的每行已经是零均值,这里我们直接求协方差矩阵:

然后求其特征值和特征向量,具体求解方法不再详述,可以参考相关资料。求解后特征值为:

λ1=2,λ2=2/5λ1=2,λ2=2/5

那么标准化后的特征向量为:

从而得到特征矩阵P:

最后我们用P的第一行乘以数据矩阵,就得到了降维后的表示:

降维投影结果如下图:

  B-示例2:特征脸提取

例如文章:http://blog.csdn.net/mpbchina/article/details/7384425提到的特征脸提取(具体可参考原文):

附上一个人脸库链接:CroppedYale

为了小白可以理解,此处给一个简化版的MATLAB代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
clc;clear all;close all;
set(0,'defaultfigurecolor',[0.2 0.3 0.5]) ;
FileDir = dir('*.jpg');
I = rgb2gray(imread(FileDir(1).name));
I = I(:);
result = zeros(length(I),length(FileDir));
figure(1)
for i=1:length(FileDir)
    subplot (2,2,i);
    I = rgb2gray(imread(FileDir(i).name));
    imshow(I);
    result(:,i) = I(:);
end
result = result';
%步骤一:去均值
for i=1:length(FileDir)
     result(i,:) = result(i,:) -mean(result(i,:) );
end
%步骤二:协方差矩阵
CovRes = result*result';
%步骤三:求协方差矩阵
[U,S,V] = svd(CovRes);
%步骤四:求投影矩阵
%假设降至一维
K = 1;
ProjVec = U(1:K,:);
%步骤五:得到降维数据
PCAData = ProjVec*result;
 
ImgPCA = reshape(PCAData,size(I));
ImgPCA = ImgPCA - min(min(PCAData));
ImgPCA = ImgPCA/max(max(ImgPCA))*255;
figure();
imshow(uint8(ImgPCA));

  C-示例3:葡萄酒案例

具体可参考:最后给出的链接,不再具体展开。

五、常见问题补充

如果不配合准则函数-优化问题 ,PCA降维可不必对数据归一化,只做去均值处理即可。 这句话基本上是废话...

  • 数据特征的归一化,是对整个矩阵还是每一维特征?

整体做归一化相当于各向同性的缩放,这样处理起来没有作用;
各维分别作归一化会丢失各维方差这一信息,但各维之间的相关系数可以保留;
如果本来各维德量纲是相同的,最好不要做归一化,以尽可能多地保留信息;
如果本来各维的量纲是不同的,那么直接做PCA没有意义,就需要先对各维分别归一化。

  • 为什么feature scaling 会使gradient descent 的收敛更好?

如果不归一化,各维度特征的跨度差距很大,目标函数就会是”扁“的:

(图中椭圆表示目标函数的等高线,两个坐标轴代表两个特征)
这样,在进行梯度下降的时候,梯度的方向就会偏离最小值的方向,走很多弯路。
如果归一化,那么目标函数就"圆 "了,从这里也可以明白:数据归一化,是针对每一个维度(特征)而言的,而不是整体。

看,每一步梯度的方向都基本指向最小值,可以大步前进。

以二维特征为例:

scaling避免了某个特征过大/小的问题。

  • 常见特征(数据)归一化的方法?
  • 最值归一化:比如把最大值归一化成1,最小值归一化成-1;或把最大值归一化成1,最小值归一化成0。适用于本来就分布在有限范围内的数据。
  • 均值方差归一化:一般是把均值归一化成0,方差归一化成1。适用于分布没有明显边界的情况,受outlier影响也较小。
    详细参考:http://blog.csdn.net/zbc1090549839/article/details/44103801

六、其他

  • Karhunen-Loeve变换(KL变换):PCA为无监督类型,K-L变换则对有监督/无监督的场景都使用,且二者在原理上非常相似,如果有空闲,拟在后续文章进行讲解,此处不再展开;
  • Kernel-PCA:核PCA (KPCA):PCA从方差角度进行论述,构造协方差矩阵,考虑的是线性关系,对于非线性关系没有进行讨论,Kernel可以将数据映射到高维。具体原理及应用本文不再详细整理。

参考:

PCA降维2的更多相关文章

  1. [综] PCA降维

    http://blog.json.tw/using-matlab-implementing-pca-dimension-reduction 設有m筆資料, 每筆資料皆為n維, 如此可將他們視為一個mx ...

  2. 机器学习公开课笔记(8):k-means聚类和PCA降维

    K-Means算法 非监督式学习对一组无标签的数据试图发现其内在的结构,主要用途包括: 市场划分(Market Segmentation) 社交网络分析(Social Network Analysis ...

  3. Python机器学习笔记 使用scikit-learn工具进行PCA降维

    之前总结过关于PCA的知识:深入学习主成分分析(PCA)算法原理.这里打算再写一篇笔记,总结一下如何使用scikit-learn工具来进行PCA降维. 在数据处理中,经常会遇到特征维度比样本数量多得多 ...

  4. PCA降维—降维后样本维度大小

    之前对PCA的原理挺熟悉,但一直没有真正使用过.最近在做降维,实际用到了PCA方法对样本特征进行降维,但在实践过程中遇到了降维后样本维数大小限制问题. MATLAB自带PCA函数:[coeff, sc ...

  5. 一步步教你轻松学主成分分析PCA降维算法

    一步步教你轻松学主成分分析PCA降维算法 (白宁超 2018年10月22日10:14:18) 摘要:主成分分析(英语:Principal components analysis,PCA)是一种分析.简 ...

  6. 【资料收集】PCA降维

    重点整理: PCA(Principal Components Analysis)即主成分分析,是图像处理中经常用到的降维方法 1.原始数据: 假定数据是二维的 x=[2.5, 0.5, 2.2, 1. ...

  7. 第四章 PCA降维

    目录 1. PCA降维 PCA:主成分分析(Principe conponents Analysis) 2. 维度的概念 一般认为时间的一维,而空间的维度,众说纷纭.霍金认为空间是10维的. 3. 为 ...

  8. PCA 降维算法详解 以及代码示例

    转载地址:http://blog.csdn.net/watkinsong/article/details/38536463 1. 前言 PCA : principal component analys ...

  9. [学习笔记] numpy次成分分析和PCA降维

    存个代码,以后参考. numpy次成分分析和PCA降维 SVD分解做次成分分析 原图: 次成分复原图: 代码: import numpy as np from numpy import linalg ...

  10. 关于PCA降维中遇到的python问题小结

    由于论文需要,开始逐渐的学习CNN关于文本抽取的问题,由于语言功底不好,所以在学习中难免会有很多函数不会用的情况..... ̄へ ̄ 主要是我自己的原因,但是我更多的把语言当成是一个工具,需要的时候查找就 ...

随机推荐

  1. NOIp2018集训test-9-6(pm)

    T1T2是洛谷原题.Orz辉神290,被辉神吊起来打. 题 1 包裹快递 二分答案.这题似乎卡精度,不开long double二分500次都过不去. //Achen #include<algor ...

  2. NX二次开发-UFUN点构造器UF_UI_point_construct

    #include <uf.h> #include <uf_ui.h> UF_initialize(); //点构造器 char sCue[] = "点构造器" ...

  3. RoadFlow2.7.5 MyController.cs

    using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.We ...

  4. Python3 From Zero——{最初的意识:008~初级实例演练}

    一.构显国际橡棋8x8棋盘 #!/usr/bin/env python3 #-*- coding:utf-8 -*- color_0="\033[41m \033[00m" col ...

  5. Rabbit MQ 客户端 API 开发

    项目开始 第一步首先需要引入对应的 jar 包 <!-- https://mvnrepository.com/artifact/com.rabbitmq/amqp-client --> & ...

  6. 极限学习机(Extreme Learning Machine)学习笔记

    最近研究上了这个一个东西--极限学习机. 在很多问题中,我大多会碰到两个问题,一个是分类,另一个就是回归.简单来说,分类是给一串数打个标签,回归是把一串数变为一个数. 在这里我们需要处理的数据一般维度 ...

  7. java-day12

    数据结构 常用的数据存储结构:栈,队列,数组,列表,红黑树. 栈:先进后出(入口和出口在用一侧) 队列:先进先出 数组: 查询快:因为数组的地址是连续的,通过数组的首地址找到数组中的元素. 增/删慢: ...

  8. Restoring Road Network Floyd

    问题 C: Restoring Road Network 时间限制: 1 Sec  内存限制: 128 MB提交: 731  解决: 149[提交] [状态] [讨论版] [命题人:admin] 题目 ...

  9. VB.NET利用正則表達式巧妙限制字符输入

    版权声明:本文为博主原创文章.未经博主同意不得转载. https://blog.csdn.net/u010028869/article/details/37913867     在通常的程序设计中.对 ...

  10. WebApi 路由机制剖析

    阅读目录 一.MVC和WebApi路由机制比较 1.MVC里面的路由 2.WebApi里面的路由 二.WebApi路由基础 1.默认路由 2.自定义路由 3.路由原理 三.WebApi路由过程 1.根 ...