PCA

PCA 就是找出数据最主要的方面，用数据里最主要的方面来代替原始数据。

PCA 是最重要的降维方法之一，在数据压缩、消除冗余和数据噪音消除等领域都有广泛的应用。

1. PCA最大可分性的思想

最大可分性： 样本点在超平面上的投影尽可能的分开

2. 基变换（线性变换）

欲获得原始数据新的表示空间，最简单方法是对原始数据进行基变换（线性变换）。

3. 方差

如何选择一个方向或者基才是最优的？基于PCA最大可分思想，我们要找的方向是降维后损失最小，可以理解为投影后的数据尽可能分得开，而分散程度可以用数学上的方差来表示，因为方差越大数据也就越分散。

4. 协方差

在高维变换中，我们希望基变换后选择的各个方向（或者基）是不相关的，这样才能表示更多的信息。数学上使用协方差表示相关性：

\[Cov(a,b) = \frac{1}{m} \sum_{i=1}^{m}a_ib_i
\]

如果 \(Cov(a,b)=0\) ，则表示两个字段完全独立，这也是我们的优化目标。

5. 协方差矩阵

我们想达到的目标（\(Cov(a,b)=0\)） 与 字段内方差 及 字段间协方差 有着密切的关系。假设只有 \(a, b\) 两个字段，按行组成 \(X\) ，求取协方差矩阵：

可见，协方差矩阵是一个对称的矩阵，对角线是各个维度的方差（字段内方差），而其它元素是字段间协方差，两者被统一到了一个矩阵之中。

6. 协方差矩阵对角化

我们的目标是使 \(Cov(a,b)=0\) ，由协方差矩阵可知我们的优化目标 \(C=\frac{1}{m}XX^T\) 等价于协方差矩阵对角化（除对角线以外的其它元素都为0，并且对角线将元素按照大小从上到下排列）。

推导：

7. PCA算法流程

输入： \(n\) 维样本集 \(X = (x_1, x_2, ... ,X_m)\)，要降维到的维数 \(n^{'}\)

输出： 降维后的样本集 \(Y\)

算法：

1）对所有样本进行中心化 \(x_i = x_i -\frac{1}{m}\sum_{j=1}^mx_j\)

2）计算样本的协方差矩阵 \(C=\frac{1}{m}XX^T\)

3）求出协方差矩阵的特征值以及对应的特征向量

4）将特征向量按对应特征值大小从上到下排列成矩阵，取前 \(K\) 行组成矩阵 \(P\)

5）\(Y=PX\) 即为原始样本降维到 \(K\) 维后的数据矩阵

代码：

"""

	这里假设原始数据集为矩阵 dataMat，其中每一行代表一个样本，每一列代表同一个特征（与上面的介绍稍有不同，上	  面是每一列代表一个样本，每一行代表同一个特征）。

"""

import numpy as np

################################

# (1)零均值化

################################

def zeroMean(dataMat):

    meanVal=np.mean(dataMat,axis=0)     #按列求均值（axis=0），即求各个特征的均值

    newData=dataMat-meanVal

    return newData,meanVal			   # newData是零均值化后的数据，meanVal是每个特征的均值

################################

# (2)求协方差矩阵

# 若rowvar=0，说明传入的数据一行代表一个样本；

# 若非0，说明传入的数据一列代表一个样本。

################################

newData,meanVal=zeroMean(dataMat)

covMat=np.cov(newData,rowvar=0)  	   

################################

# (3)求特征值和特征矩阵

# eigVals存放特征值，行向量

# eigVects存放特征向量，每一列带别一个特征向量

# 特征值和特征向量是一一对应的

################################

eigVals,eigVects=np.linalg.eig(np.mat(covMat)) 

################################

# (4)保留比较大的前n个特征向量

# 第三步得到了特征值向量eigVals，假设里面有m个特征值，我们可以对其排序，排在前面的n个特征值所对应的特征  # 向量就是我们要保留的，它们组成了新的特征空间的一组基n_eigVect

################################

eigValIndice=np.argsort(eigVals)            #对特征值从小到大排序

n_eigValIndice=eigValIndice[-1:-(n+1):-1]   #最大的n个特征值的下标，首先argsort对特征值是从小到大排序的，那么最大的n个特征值就排在后面，所以eigValIndice[-1:-(n+1):-1]就取出这个n个特征值对应的下标（python里面，list[a:b:c]代表从下标a开始到b，步长为c）

n_eigVect=eigVects[:,n_eigValIndice]        #最大的n个特征值对应的特征向量

################################

# (5)获取降维后的数据

# 将零均值化后的数据乘以n_eigVect就可以得到降维后的数据

################################

lowDDataMat=newData*n_eigVect               #低维特征空间的数据

reconMat=(lowDDataMat*n_eigVect.T)+meanVal  #重构数据

8. PCA算法总结

优点：

1）仅仅依靠方差衡量信息量，不受数据集以外的因素影响

2）各主成分之间相互正交，可消除原始数据成分间的相互影响的因素

3）计算方法简单，主要运用特征值分解

缺点：

1）主成分各个特征维度的含义具有一定的模糊性，不如原始样本特征的解释性强

2）方差小的主成分也有可能含有对样本差异的重要信息，由于降维丢弃可能会对后续数据处理有影响

【机器学习】PCA的更多相关文章

[机器学习]-PCA数据降维：从代码到原理的深入解析
&*&:2017/6/16update,最近几天发现阅读这篇文章的朋友比较多,自己阅读发现,部分内容出现了问题,进行了更新. 一.什么是PCA:摘用一下百度百科的解释 PCA(Prin ...
机器学习--PCA降维和Lasso算法
1.PCA降维降维有什么作用呢?数据在低维下更容易处理.更容易使用:相关特征,特别是重要特征更能在数据中明确的显示出来:如果只有两维或者三维的话,更便于可视化展示:去除数据噪声降低算法开销常见的降 ...
机器学习--PCA算法代码实现(基于Sklearn的PCA代码实现)
一.基于Sklearn的PCA代码实现 import numpy as np import matplotlib.pyplot as plt from sklearn import datasets ...
[机器学习 ]PCA降维--两种实现 : SVD或EVD. 强力总结. 在鸢尾花数据集(iris)实做
PCA降维--两种实现 : SVD或EVD. 强力总结. 在鸢尾花数据集(iris)实做今天自己实现PCA,从网上看文章的时候,发现有的文章没有搞清楚把SVD(奇异值分解)实现和EVD(特征值分解) ...
机器学习（4）——PCA与梯度上升法
主成分分析(Principal Component Analysis) 一个非监督的机器学习算法主要用于数据的降维通过降维,可以发现更便于人类理解的特征其他应用:可视化.去噪通过映射,我们可以 ...
131.008 Unsupervised Learning - Principle component Analysis |PCA | 非监督学习 - 主成分分析
@(131 - Machine Learning | 机器学习) PCA是一种特征选择方法,可将一组相关变量转变成一组基础正交变量 25 PCA的回顾和定义 Demo: when to use PCA ...
PCA主成分分析 ICA独立成分分析 LDA线性判别分析 SVD性质
机器学习(8) -- 降维核心思想:将数据沿方差最大方向投影,数据更易于区分简而言之:PCA算法其表现形式是降维,同时也是一种特征融合算法. 对于正交属性空间(对2维空间即为直角坐标系)中的样本点 ...
SIGAI深度学习第四集深度学习简介
讲授机器学习面临的挑战.人工特征的局限性.为什么选择神经网络.深度学习的诞生和发展.典型的网络结构.深度学习在机器视觉.语音识别.自然语言处理.推荐系统中的应用大纲: 机器学习面临的挑战特征工程的 ...
机器学习笔记----四大降维方法之PCA（内带python及matlab实现）
大家看了之后,可以点一波关注或者推荐一下,以后我也会尽心尽力地写出好的文章和大家分享. 本文先导:在我们平时看NBA的时候,可能我们只关心球员是否能把球打进,而不太关心这个球的颜色,品牌,只要有3D效 ...
《机器学习实战》学习笔记——第13章 PCA
1. 降维技术 1.1 降维的必要性 1. 多重共线性--预测变量之间相互关联.多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯.2. 高维空间本身具有稀疏性.一维正态分布有68%的值落于正负 ...

随机推荐

5.智能快递柜(通信篇-Server程序)
1.智能快递柜(开篇) 2.智能快递柜(终端篇) 3.智能快递柜(通信篇-HTTP) 4.智能快递柜(通信篇-SOCKET) 5.智能快递柜(通信篇-Server程序) 6.智能快递柜(平台篇) 7. ...
安卓开发笔记（三十三）:Android仿写微信发现
首先我们来看看仿写之后的效果: 看到是这个界面我们首先应该思考这些按钮是怎么做出来的?有了一个整体的思路之后才知道该怎么办.最开始我想的就直接利用button控件上面直接加上png的图片就可以形成一个 ...
ListView详细介绍与使用
前言介绍: 关于 ListView 我们大家都应该是非常的熟悉了,在 Android 开发中是经常用到的,今天就再来回顾一下,ListView 的使用方法,和一些需要优化注意的地方,还有日常开发过程中 ...
一文解读PV/UV/VV/IP (转)
什么是PV? PV即Page View,网站浏览量,指页面浏览的次数,用以衡量网站用户访问的网页数量.用户每次打开一个页面便记录1次PV,多次打开同一页面则浏览量累计.一般来说,PV与来访者的数量成正 ...
【LeetCode】437. 路径总和 III
437. 路径总和 III 给定一个二叉树,它的每个结点都存放着一个整数值. 找出路径和等于给定数值的路径总数. 路径不需要从根节点开始,也不需要在叶子节点结束,但是路径方向必须是向下的(只能从父节点 ...
Linux实现免密码登录
一.验证ssh远程登录,未作免密处理的两台机器,登录时,是需要输入密码的二.本地系统执行 ssh-keygen -t rsa 命令,生成密钥文件三.在相应的目录下查看生成的密钥文件,其中:id_r ...
Mysql Join-连接查询(中)
Mysql Join-连接查询(中) 认识就我平时的数据接触来看, 连接查询也没有很复杂,不够是非常需要耐心和逻辑的, 一点点将数据查出来, 拼接等. 没有什么技巧, 多练习就会了. 无非就是表之间 ...
C# Session 操作类
using System; using System.Collections.Generic; using System.Linq; using System.Text; using System.T ...
[Linux] docker 方式安装和使用gitlab-ce
gitlab就相当于我们自己内网搭建的git服务,相当于公司内的github. 拉取镜像docker pull gitlab/gitlab-ce 创建宿主机的数据目录mkdir -p /mnt/git ...
JEB动态调试解密数据包加密字段
0x00 场景在测试某个app的时候,抓取数据包,发现某些参数存在被加密的情况,或者有签名校验的情况,这个时候如果我们想直接去篡改数据包的内容往往是做不到的,那就来看看抓取的某个app登录数据包,如 ...

【机器学习】PCA

PCA