DeepLearning (三) 预处理:主成分分析与白化
PCA算法前面在前面的博客中已经有介绍,这里简单在描述一下,更详细的PCA算法请参考我的博客: 机器学习实战ByMatlab(二)PCA算法
PCA 的主要计算步骤
1.数据预处理,使得每一维数据都有相同的均值0
2.计算数据的协方差矩阵,Σ=1m∑mi=1(x(i))(x(i))TΣ=1m∑i=1m(x(i))(x(i))T
3.对协方差矩阵 ΣΣ 进行奇异值分解,得到特征值 uu 以及特征向量 dd
4.旋转数据 xrot=UTxxrot=UTx
5.选择主成分的个数 kk
6.数据降维 x′(i)=x(i)rot,1−k=uT1−kx(i)x′(i)=xrot,1−k(i)=u1−kTx(i)
PCA 的另外一种解释是:xrotxrot 是一个 nn 维向量,其中前 kk 个成分可能比较大,而后几个成分可能比较小,PCA 算法做的其实就是丢弃 xrotxrot 后面 n−kn−k 个较小的成分,即将这些成分的值近似为0,然后仅用这前 kk 个成分来定义 kk 维向量 x′x′
还原近似数据
当我们得到降维后的数据 x′x′ , 我们想还原原来的数据,只需要左乘 u 即可,即 x=Uxrotx=Uxrot
选择主成分的个数
关于PCA中主成分的个数 kk 的选择:
如果 kk 过大,则数据压缩率不高,在极限情况 k=nk=n 时,等于是使用原始数据;
如果 kk 过小, 则数据的近似误差太大
我们通常考虑的是不同 kk 值可以保留的方差百分比,具体来说,如果 k=nk=n ,那么我们得到的是对数据的完美近似,也就是保留了100%的方差,即原始数据的所有变化都被保留下来;相反,如果 k=0k=0 ,那等于是使用零向量来逼近输入数据,也就是只有0%的方差被保留下来。
一般而言,设 λ1,λ2,...,λnλ1,λ2,...,λn 表示 ΣΣ 的特征值(由大到小排序,在matlab中可由 svd 函数得到),使得 λjλj 为对应的特征向量 ujuj 的特征值,那么如果我们保留前 kk 个成分,则保留的方差百分比可计算为:
以处理图像数据为例,一个惯常的经验法则是选择 kk 以保留99%的方差,换句话说,我们选取满足以下条件的最小 kk值:
对图像数据应用PCA算法
假设我们的特征为 x1,x2,...,xnx1,x2,...,xn ,对于非图像数据的处理,我们一般要计算每个特征 xjxj 的均值和方差,然后将其取值范围规整化为零均值和单位方差。不过对于大多数自然图像来说,由于其自身的平稳性,图像任一部分的统计性质都应该和其它部分相同,因此我们不用进行方差归一化。
所以对图像进行处理时,步骤如下:
1.求特征均值: u(i):=1n∑nj=1x(i)ju(i):=1n∑j=1nxj(i)
2.零均值处理:x(i)j:=x(i)j−u(i)jxj(i):=xj(i)−uj(i) for all jj
白化
白化其实跟PCA算法还是挺相似的。举例来说,假设训练数据是图像,由于图像中相邻像素之间具有很强的相关性,所以用于训练时输入是冗余的。白化的目的就是降低输入的冗余性;更正式的说,我们希望通过白化过程使得学习算法的输入具有如下性质:
1.特征之间相关性较低
2.所有特征具有相同的方差(图像处理中我们一般设置为单位方差)
在PCA算法中,我们对数据进行降旋转 x(i)rot=UTx(i)xrot(i)=UTx(i) 时,已经消除了输入特征 x(i)x(i) 之间的相关性,举个例子:假如我们的二维数据图形化如下:
显然这是一个二维数据分布,其中横轴 x1x1 跟竖轴 x2x2 之前呈现正相关关系,即 x2x2 随着 x1x1 的增大而增大,然后我们将其投影到特征向量上 x(i)rot=UTx(i)xrot(i)=UTx(i) ,得到如下图:
此时 x2x2 已经不随着 x1x1 的增大而增大了,也就是说 x1x1 与 x2x2 消除了相关性。
特征单位方差处理
为了使每个输入特征具有单位方差,我们可以直接使用 1λi√1λi 作为缩放因子来缩放每个特征 xrot,ixrot,i ,具体地,我们定义白化后的数据如下:
此时的 xPCAwhite,ixPCAwhite,i 是数据经过PCA白化后的版本, 其不同的特征之间不相关并且具有单位方差。
ZCA 白化
假如 RR 是任意正交矩阵,即满足 RRT=RTR=IRRT=RTR=I ,那么 RxPCAwhiteRxPCAwhite仍然具有单位协方差。在ZCA白化中,令 R=UR=U。我们定义ZCA白化的结果为:
正则化
实践中需要实现PCA白化或ZCA白化时,有时一些特征值 λiλi在数值上接近于0,这样在缩放步骤时我们除以 λ−−√iλi将导致除以一个接近0的值;这可能使数据上溢 (赋为大数值)或造成数值不稳定。因而在实践中,我们使用少量的正则化实现这个缩放过程,即在取平方根和倒数之前给特征值加上一个很小的常数 ϵϵ :
当 xx 在区间[-1,1]上时, 一般取值为 ϵ≈10−5ϵ≈10−5
对图像来说, 这里加上 ϵϵ,对输入图像也有一些平滑(或低通滤波)的作用。这样处理还能消除在图像的像素信息获取过程中产生的噪声,改善学习到的特征。
matlab 实例
1.图像加载 12x12 的patch,共10000个,转换为 144x10000的矩阵,即数据是144维
x = sampleIMAGESRAW();
- 1
随机显示200个图像块,如下图:
2.零均值化
meanVal = mean(x);
x = bsxfun(@minus,x,meanVal);
- 1
- 2
此时 xx 为零均值数据
3.求协方差矩阵,并对协方差矩阵进行奇异值分解,再对数据进行特征向量投影
xRot = zeros(size(x));
[u,d] = svd(x*x'/size(x,2));
xRot = u' * x;
- 1
- 2
- 3
4.PCA 检测,计算协方差矩阵
covar = zeros(size(x, 1));
covar = xRot*xRot'/size(xRot,2);
- 1
- 2
此时的协方差矩阵为144x144的矩阵,显示为图像如下:
对角线为数据的自相关,也就是方差,值最大,所以颜色最亮,两边为协方差,值比较小,故颜色较暗,这里为蓝色。
5. 寻找能够保留90%方差的最小 kk 值
k = 0;
dVal = diag(d); % 列向量
sumDVal = sum(dVal);
kP = 0;
while kP<0.9
k = k+1;
kP = sum(dVal(1:k)) / sumDVal;
end
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
此时 kk 为43,当设置为保留 99% 的方差时,kk 为116.
6. PCA降维
xHat = zeros(size(x));
xHat = u(:,1:k) * xRot(1:k,:);
- 1
- 2
将 144维的数据降维到43维,并用43维数据还原图像如下:
7. PCA白化与规则化
epsilon = 0.1;
xPCAWhite = zeros(size(x));
xPCAWhite = bsxfun(@rdivide,xRot,sqrt((dVal+epsilon)));
- 1
- 2
- 3
8. 检测PCA白化是否正确,计算协方差矩阵并显示
covar = xPCAWhite * xPCAWhite' / size(xPCAWhite,2);
- 1
白化后的协方差矩阵图像如下:
如果没有进行规则化,也就是我们将 ϵϵ 设置为0,此时白化后的协方差矩阵如下图:
9.ZCA白化
xZCAWhite = zeros(size(x));
xZCAWhite = u*xPCAWhite;
- 1
- 2
ZCA白化后图像如下:
DeepLearning (三) 预处理:主成分分析与白化的更多相关文章
- DL四(预处理:主成分分析与白化 Preprocessing PCA and Whitening )
预处理:主成分分析与白化 Preprocessing:PCA and Whitening 一主成分分析 PCA 1.1 基本术语 主成分分析 Principal Components Analysis ...
- 深度学习入门教程UFLDL学习实验笔记三:主成分分析PCA与白化whitening
主成分分析与白化是在做深度学习训练时最常见的两种预处理的方法,主成分分析是一种我们用的很多的降维的一种手段,通过PCA降维,我们能够有效的降低数据的维度,加快运算速度.而白化就是为了使得每个特征能有同 ...
- Deep Learning 3_深度学习UFLDL教程:预处理之主成分分析与白化_总结(斯坦福大学深度学习教程)
1PCA ①PCA的作用:一是降维:二是可用于数据可视化: 注意:降维的原因是因为原始数据太大,希望提高训练速度但又不希望产生很大的误差. ② PCA的使用场合:一是希望提高训练速度:二是内存太小:三 ...
- UFLDL教程笔记及练习答案二(预处理:主成分分析和白化)
首先将本节主要内容记录下来.然后给出课后习题的答案. 笔记: :首先我想推导用SVD求解PCA的合理性. PCA原理:如果样本数据X∈Rm×n.当中m是样本数量,n是样本的维数.PCA降维的目的就是为 ...
- UFLDL学习笔记 ---- 主成分分析与白化
主成分分析(PCA)是用来提升无监督特征学习速度的数据降维算法.看过下文大致可以知道,PCA本质是对角化协方差矩阵,目的是让维度之间的相关性最小(降噪),保留下来的维度能量最大(去冗余),PCA在图像 ...
- UFLDL 教程学习笔记(四)主成分分析
UFLDL(Unsupervised Feature Learning and Deep Learning)Tutorial 是由 Stanford 大学的 Andrew Ng 教授及其团队编写的一套 ...
- PCA主成分分析+白化
参考链接:http://deeplearning.stanford.edu/wiki/index.php/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90 h ...
- UFLDL 教程三总结与答案
主成分分析(PCA)是一种能够极大提升无监督特征学习速度的数据降维算法.更重要的是,理解PCA算法,对实现白化算法有很大的帮助,很多算法都先用白化算法作预处理步骤.这里以处理自然图像为例作解释. 1. ...
- C预编译, 预处理, C/C++头文件, 编译控制,
在所有的预处理指令中,#Pragma 指令可能是最复杂的了,它的作用是设定编译器的状态或者是指示编译器完成一些特定的动作.#pragma指令对每个编译器给出了一个方法,在保持与C和C++语言完全兼容的 ...
随机推荐
- vijos 1098 合唱队形 - 动态规划
描述 N位同学站成一排,音乐老师要请其中的(N-K)位同学出列,使得剩下的K位同学排成合唱队形. 合唱队形是指这样的一种队形:设K位同学从左到右依次编号为1,2…,K,他们的身高分别为T1,T2,…, ...
- 安装VS提示系统找不到指定路径
解决办法:删除C:\ProgramData\Package Cache快捷方式
- bzoj1055 ||P4290 [HAOI2008]玩具取名
目录 链接 思路 代码 链接 luogu bzoj 思路 区间dp 然后\(f[i][j][k]\) 区间\([i,j]\)能否变成\(k\)字符 (字符当然得转化一下) 字符的个数不多,直接暴力\( ...
- springmvc-自定义消息转换器
最近的项目没有用到这个,先把自己自学跑通的例子先帖出来,供自己以后参考吧! 如有不对地方望指出! 一.自定义类实现AbstractHttpMessageConverter package com.dz ...
- UVA 11806 Cheerleaders (容斥原理
1.题意描述 本题大致意思是讲:给定一个广场,把它分为M行N列的正方形小框.现在给定有K个拉拉队员,每一个拉拉队员需要站在小框内进行表演.但是表演过程中有如下要求: (1)每一个小框只能站立一个拉拉队 ...
- BZOJ1296: [SCOI2009]粉刷匠 DP
Description windy有 N 条木板需要被粉刷. 每条木板被分为 M 个格子. 每个格子要被刷成红色或蓝色. windy每次粉刷,只能选择一条木板上一段连续的格子,然后涂上一种颜色. 每个 ...
- [Java中实现国际化] - 配合thymeleaf实现中英文自动切换(多语言)
MOOC该链接第三章第二节 尚硅谷SpringBoot全集 web开发国际化 xjbo (7天,过期可以留言索取) resources下建立文件 上到下为: 默认的,英语(美国),中文(中国) en ...
- mysql中时间计算函数SQL DATE_SUB()用法
本文为博主原创,未经允许不得转载: 在写sql的时候,经常要在sql中传值时间,对时间进行计算并过滤.之前都是将时间在后台计算好,直接传值给sql, 今天发现,有一个更方便的sql函数,可以简化很多代 ...
- 【Coursera】Internet History 小结
前言 终于看完了接近一半课程的 History 的内容. 在这两周的时间里面,了解了互联网的起源,发展,以及现在互联网的情况.听了许多故事,有让人会心一笑的,也有令人感慨万千的.见到了许多令人景仰的科 ...
- 51nod 1307 绳子与重物(并查集水了一发)
http://www.51nod.com/onlineJudge/questionCode.html#!problemId=1307 题意: 思路: 可以直接二分答案,然后dfs. 因为标签是并查集, ...