主成分分析PCA（Principal Component Analysis）在sklearn中的应用及部分源码分析

最近太忙，又有一段时间没写东西了。

pca是机器学习中一个重要的降维技术，是特征提取的代表。关于pca的实现原理，在此不做过多赘述，相关参考书和各大神牛的博客都已经有各种各样的详细介绍。如需学习相关数学理论，请移驾。T_T

简单说一下pca的实现，首先对于一个矩阵X，我们计算X·X^T，显然这个一个半正定矩阵，可以做特征值分解，然后取出k个最大的特征值及其对应的特征向量就可以表达整个原矩阵。若X·X^T=p^-1Λp，因为p是单位矩阵，所以p^-1=p^T，即X·X^T=p^-1·Λ^1/2·(p^-1·Λ^1/2)^T，也就是降维的X后用来p^-1·Λ^1/2表示。

其实从SVD的角度来理解也是一样的，若X=UΣV^T，则X·X^T=UΣ²U^T，同样我们用来UΣ来表示原X。

当我看sklearn的文档时，文档并没有具体解释它的方法得到的结果在数学上的表示什么，钻研了半天，看了源码后才知道。

sklearn的方法是通过SVD来实现的。这里着重介绍sklearn的pca类中的一个属性(components_)和两个方法(fit，transform)。

首先，给定一个矩阵，设置参数后，通过调用fit方法得到降维模型，也就是一个基矩阵。我们看一下fit中的部分关键代码。

...

self.mean_ = np.mean(X, axis=0)

X -= self.mean_

U, S, V = linalg.svd(X, full_matrices=False)

U, V = svd_flip(U, V)

components_ = V

...

self.components_ = components_[:n_components]

...

首先做的工作就是对数据进行按列中心化，然后做svd分解，然后把V的前k个向量保存为模型，模型的关键内容就是components_。（看似几百行代码，T_T）

接下来看看transfrom的部分关键源码。

...

X = np.dot(X, self.components_.T)

return X

我只贴这两句，T_T，因为真的只有这两句特别重要。也就是说我们要把一个新矩阵用到训练好的pca模型中时，其实只是做了一次矩阵乘法而已。

怎么来理解作者的做法呢？

其实就是我们上面的提到的，用svd方式来实现pca时，我们实际上用UΣ来表示降维后的数据。综合svd公式，可以看成XV=UΣ，也就是把原矩阵与V做乘法，实际上这里理解为投影，把X投影到V的单位正交基所表示的子空间中去得到X的低维表示。对于一个新的矩阵Y，同样用YV来表示其在V子空间降维后的结果，这也就是为什么transform方法为什么最关键的步骤只有一步乘法了。回过头看，fit训练模型就是要得到V，然后在transform降维时只需要一步乘法就可以了。

我们用下面的代码做个小实验。

import numpy as np

from sklearn.decomposition import PCA

from sklearn import preprocessing

from sklearn.utils.extmath import svd_flip

svd = np.linalg.svd

A = np.random.randint(0,5, (5,3))

print('A=')

print(A)

pca = PCA(n_components=2, svd_solver='full')

# print(A)

model = pca.fit(A)

print('model.components_=')

print(model.components_)

X = model.transform(A)

print('pca(A)=')

print(X)

A = A - np.mean(A, axis=0)

u,s,v = svd(A, full_matrices=False)

print('V=')

print(v[:2])

print('pva_by_svd=')

print(np.dot(A, v[:2].T))

运行得到的结果如下

A=

[[3 1 4]

 [4 1 1]

 [1 2 0]

 [1 4 2]

 [1 3 2]]

model.components_=

[[ 0.70734192 -0.61231721  0.35317848]

 [ 0.19273774 -0.31363722 -0.92977624]]

pca(A)=

[[ 2.21911523 -1.47640531]

 [ 1.86692171  1.50566115]

 [-1.22059974  1.54358693]

 [-1.73887721 -0.94323999]

 [-1.12656    -0.62960277]]

V=

[[-0.70734192  0.61231721 -0.35317848]

 [ 0.19273774 -0.31363722 -0.92977624]]

pva_by_svd=

[[-2.21911523 -1.47640531]

 [-1.86692171  1.50566115]

 [ 1.22059974  1.54358693]

 [ 1.73887721 -0.94323999]

 [ 1.12656    -0.62960277]]

咦，结果跟之前的分析有点小小的差别，通过svd和sklearn的结果对比，V的第一行和降维结果的第一列正负相反了。

多运行几次，这个现象并不一定出现。其实是通过上面svd_flip函数来实现的。

sklearn对奇异分解结果进行了一个处理，因为u_i*σ_i*v_i=(-u_i)*σ_i*(-v_i)，也就是u和v同时取反得到的结果是一样的，而这会导致通过pca降维得到不一样的结果（虽然都是正确的）。为了追求唯一的表示，首先定位u_i向量中绝对值最大的元素位置，如果它为负数，则u_i和v_i取反，否则不变。这部分的源码在这里。

主成分分析PCA（Principal Component Analysis）在sklearn中的应用及部分源码分析的更多相关文章

R: 主成分分析 ~ PCA(Principal Component Analysis)
本文摘自:http://www.cnblogs.com/longzhongren/p/4300593.html 以表感谢. 综述: 主成分分析因子分析典型相关分析,三种方法的共同点主要是用来对数据 ...
RocketMQ中Broker的HA策略源码分析
Broker的HA策略分为两部分①同步元数据②同步消息数据同步元数据在Slave启动时,会启动一个定时任务用来从master同步元数据 if (role == BrokerRole.SLAVE) ...
【Java】NIO中Selector的select方法源码分析
该篇博客的有些内容和在之前介绍过了,在这里再次涉及到的就不详细说了,如果有不理解请看[Java]NIO中Channel的注册源码分析, [Java]NIO中Selector的创建源码分析 Select ...
RocketMQ中Broker的刷盘源码分析
上一篇博客的最后简单提了下CommitLog的刷盘 [RocketMQ中Broker的消息存储源码分析] (这篇博客和上一篇有很大的联系) Broker的CommitLog刷盘会启动一个线程,不停地 ...
Flink中Idle停滞流机制(源码分析)
前几天在社区群上,有人问了一个问题既然上游最小水印会决定窗口触发,那如果我上游其中一条流突然没有了数据,我的窗口还会继续触发吗? 看到这个问题,我蒙了???? 对哈,因为我是选择上游所有流中水印最小 ...
List中的ArrayList和LinkedList源码分析
List是在面试中经常会问的一点,在我们面试中知道的仅仅是List是单列集合Collection下的一个实现类, List的实现接口又有几个,一个是ArrayList,还有一个是LinkedLis ...
【Android笔记】Thread类中关于join()方法的源码分析
1.join()方法的作用: 例如有一个线程对象为Thread1,在main()方法中调用Thread1.join()方法可使得当前线程(即主线程)阻塞,而执行Thread1线程. 2.源码分析(以上 ...
Fabric2.2中的Raft共识模块源码分析
引言 Hyperledger Fabric是当前比较流行的一种联盟链系统,它隶属于Linux基金会在2015年创建的超级账本项目且是这个项目最重要的一个子项目.目前,与Hyperledger的另外几个 ...
MapReduce中map并行度优化及源码分析
mapTask并行度的决定机制一个job的map阶段并行度由客户端在提交job时决定,而客户端对map阶段并行度的规划的基本逻辑为:将待处理数据执行逻辑切片(即按照一个特定切片大小,将待处理数据划分 ...

随机推荐

【Codeforces 499D】Name That Tune
Codeforces 499 D 题意:给$n$个曲子,每个曲子每一秒有$p_i$的几率可以被猜出来,过了$t_i$秒肯定能被猜出来,猜完第$i$首歌立即播第$i+1$首,问\(T ...
Android学习之基础知识八—Android广播机制实践（实现强制下线功能）
强制下线功能算是比较常见的了,很多的应用程序都具备这个功能,比如你的QQ号在别处登录了,就会将你强制挤下线.实现强制下线功能的思路比较简单,只需要在界面上弹出一个对话框,让用户无法进行任何操作,必须要 ...
Android学习之Button按钮在程序运行时全部变大写的处理
问题: 在layout布局文件中,我们命名的按钮名称是“button1”,程序运行过后,在app上显示出来的是“BUTTON1”,先看源代码和效果: 按钮源代码: 运行效果: 解决办法: 方法一: 在 ...
python常用工具组件
1.JS 正则 test - 判断字符串是否符合规定的正则 rep = /\d+/; rep.test("asdfoiklfasdf89asdfasdf ...
Vue-Vue文本渲染三种方法 {{}}、v-html、v-text
{{ }} 将元素当成纯文本输出 v-htmlv-html会将元素当成HTML标签解析后输出 v-textv-text会将元素当成纯文本输出代码: <!DOCTYPE html> < ...
[Spark][Python]Spark Join 小例子
[training@localhost ~]$ hdfs dfs -cat people.json {"name":"Alice","pcode&qu ...
Scala学习(五)---Scala中的类
Scala中的类摘要: 在本篇中,你将会学习如何用Scala实现类.如果你了解Java或C++中的类,你不会觉得这有多难,并且你会很享受Scala更加精简的表示法带来的便利.本篇的要点包括: 1. ...
Html页面雪花效果的实现
简单介绍昨天修改了一下博客所用的模板,冬天来了,给自己的博客加点雪花,感觉更有意境. 百度找到了非常多的结果,最终还是选用了cfs.snow.js,很赞压缩之后只有1kb左右,而且不会影响页面使用, ...
Qt5.9使用QWebEngineView加载网页速度非常慢，问题解决
折腾了大半天终于解决了原帖地址:https://bugreports.qt.io/browse/QTBUG-44763 BUG单下的留言讲明了问题发生的原因,那就是系统默认设置为自动寻找代理,而使用 ...
【变态需求】bootstrapTable列排序-选择正序倒序不排序
产品经理:那个table排序能不能点击后弹个选项选择正序倒序不排序? -- 那个是bootstrapTable的插件!不支持!改不了!! 注意:数据上假的,效果看http请求参数进行脑补这是boot ...

主成分分析PCA（Principal Component Analysis）在sklearn中的应用及部分源码分析

主成分分析PCA（Principal Component Analysis）在sklearn中的应用及部分源码分析的更多相关文章

随机推荐

热门专题