非监督的降维算法--PCA

PCA是一种非监督学习算法，它能够在保留大多数有用信息的情况下，有效降低数据纬度。

它主要应用在以下三个方面：

1. 提升算法速度

2. 压缩数据，减小内存、硬盘空间的消耗

3. 图示化数据，将高纬数据映射到2维或3维

总而言之，PCA干的事情就是完成一个将原始的n维数据转化到k维的映射。其中，k<n

它的核心算法如下：

1. 将数据均一化

x' = [x-mean(x)] / range(x)

2. 计算它的协方差矩阵

即：Sigma = 1/m * x' * x

3. 进行svd分解，计算特征向量

[U, S, V] = svd(Sigma)

选出U中的前k列，就可以得到映射公式啦

即：

Ureduce = U(:, 1:k);

z = Ureduce'*x;

其中，z便是降维后映射得到的特征矩阵。

至于如何选择k，那要看我们决定保留原始信息的多少变化范围（variance）。当我们想保留

原始信息99%的variance时：

即：将S中前k个对角线元素相加，最小的能使相加和大于整个S的对角线和的99%的k便是我们应选择的k。

有压缩，那自然就有相应的还原。不过PCA本身的压缩是有损压缩，无法还原为与原来完全一样的值。（当然k=n另当别论）

我们只能够得到原始特征向量（非矩阵）的近似还原值。公式为：

即：Xapprox = Ureduce * Z

在使用PCA时，有几个要注意的地方：

1. 构建机器学习算法时，不要一上来就想要用PCA，一般而言，直接使用原始特征效果会比较好。

PCA是在原始算法过于缓慢，或者内存、硬盘空间实在不够大无法支撑计算时才有必要加入的

2. 不要用PCA来减小过拟合的问题，用regularization才是解决过拟合更为合理的方法。因为

PCA只看特征矩阵来决定如何减小特征数，而regularization同时看特征矩阵和对应的label来减小过拟合。

非监督的降维算法--PCA的更多相关文章

[机器学习理论] 降维算法PCA、SVD(部分内容，有待更新)
几个概念正交矩阵在矩阵论中,正交矩阵(orthogonal matrix)是一个方块矩阵,其元素为实数,而且行向量与列向量皆为正交的单位向量,使得该矩阵的转置矩阵为其逆矩阵: 其中,为单位矩阵. ...
机器学习实战基础（二十一）：sklearn中的降维算法PCA和SVD（二） PCA与SVD 之降维究竟是怎样实现
简述在降维过程中,我们会减少特征的数量,这意味着删除数据,数据量变少则表示模型可以获取的信息会变少,模型的表现可能会因此受影响.同时,在高维数据中,必然有一些特征是不带有有效的信息的(比如噪音),或 ...
机器学习实战基础（二十）：sklearn中的降维算法PCA和SVD（一）之概述
概述 1 从什么叫“维度”说开来我们不断提到一些语言,比如说:随机森林是通过随机抽取特征来建树,以避免高维计算:再比如说,sklearn中导入特征矩阵,必须是至少二维:上周我们讲解特征工程,还特地提 ...
ML: 降维算法-PCA
PCA (Principal Component Analysis) 主成份分析也称为卡尔胡宁-勒夫变换(Karhunen-Loeve Transform),是一种用于探索高维数据结 ...
降维算法-PCA主成分分析
1.PCA算法介绍主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预处理.一般我们获取的原始数据维度都很高,比如1000个特征,在这1 ...
机器学习实战基础（二十三）：sklearn中的降维算法PCA和SVD（四） PCA与SVD 之 PCA中的SVD
PCA中的SVD 1 PCA中的SVD哪里来? 细心的小伙伴可能注意到了,svd_solver是奇异值分解器的意思,为什么PCA算法下面会有有关奇异值分解的参数?不是两种算法么?我们之前曾经提到过,P ...
降维算法----PCA原理推导
1.从几何的角度去理解PCA降维以平面坐标系为例,点的坐标是怎么来的? 图1 ...
机器学习实战基础（二十七）：sklearn中的降维算法PCA和SVD（八）PCA对手写数字数据集的降维
PCA对手写数字数据集的降维 1. 导入需要的模块和库 from sklearn.decomposition import PCA from sklearn.ensemble import Rando ...
机器学习实战基础（二十四）：sklearn中的降维算法PCA和SVD（五） PCA与SVD 之重要接口inverse_transform
重要接口inverse_transform 在上周的特征工程课中,我们学到了神奇的接口inverse_transform,可以将我们归一化,标准化,甚至做过哑变量的特征矩阵还原回原始数据中的特征矩阵 ...

随机推荐

TP-LINK WR941N路由器研究
TP-LINK WR941N路由器研究之前看到了一个CVE, CVE-2017-13772 是TP-Link WR940N后台的RCE, 手头上正好有一个TP-Link WR941N的设备,发现也存 ...
struct：二进制数据结构的打包与解包
介绍 struct模块包括一些函数,这些函数可以完成字节串与原生Python数据类型(如数字和字符串)之间的转换函数与Struct类 struct提供了一组处理结构值的模块级函数,另外还有一个Str ...
基础数据补充 set() 集合深浅拷贝
一对字符串的操作 li = ["张曼玉", "朱茵", "关之琳", "刘嘉玲"] s = "_" ...
pip命令及虚拟环境的建立
以下命令是pip命令,是帮助我们安装解决python所需要的环境包列出已经安装的包 pip list 安装要安装的包 pip install 包名安装特定版本 pip install django ...
使用pycharm，配置环境
如果是使用virtualenv,请确保已激活运行环境不知道怎么激活的,请按以下步骤来: 尝试使用终端通过更改目录(cd)命令导航到包含虚拟环境的文件夹.到达后,尝试输入: source ./venv ...
webpack 配置文件说明
var path = require("path"); var webpack = require("webpack"); var HtmlwebpackPlu ...
对称加密算法DES、3DES和AES 原理总结（转载）
1.对称加密算法 1.1 定义对称加密算法是应用较早的加密算法,技术成熟.在对称加密算法中,数据发信方将明文(原始数据)和加密密钥(mi yue)一起经过特殊加密算法处理后,使其变成复杂的加密密文发 ...
ES大批量写入提高性能的策略
1.用bulk批量写入你如果要往es里面灌入数据的话,那么根据你的业务场景来,如果你的业务场景可以支持让你将一批数据聚合起来,一次性写入es,那么就尽量采用bulk的方式,每次批量写个几百条这样子. ...
.net上传超大文件解决方案
HTML部分 <%@PageLanguage="C#"AutoEventWireup="true"CodeBehind="index.aspx. ...
Subarray Sorting （线段树）
题意:给你两个长度为 n 的序列 a 和 b , 可以对 a 进行操作: 选择一段区间[ l, r ] ,使得序列a 在这段区间里按升序排序. 可以对a 进行任意多次操作,问 a是否有可能变成b序 ...

非监督的降维算法--PCA

非监督的降维算法--PCA的更多相关文章

随机推荐

热门专题