PCA降维—降维后样本维度大小

之前对PCA的原理挺熟悉，但一直没有真正使用过。最近在做降维，实际用到了PCA方法对样本特征进行降维，但在实践过程中遇到了降维后样本维数大小限制问题。

MATLAB自带PCA函数：[coeff, score, latent, tsquared] = pca(X)

其中，X是n*p的，n是样本个数，p是特征维数。

　　（1）coeff矩阵是返回的转换矩阵，就是把原始样本转换到新空间中的转换矩阵。

　　（2）score是原始样本矩阵在新样本空间中的表示，也就是原始样本乘上转换矩阵，但是还不是直接乘，要减去一个样本的均值。将原始数据转换到新样本空间中的算法是这样实现的：X0 = bsxfun(@minus,X,mean(X,1)); score = X0 * coeff.

　　（3）latent是返回的按降序排列的特征值，根据这个你可以手动的选择降维以后的数据要选择前多少列。

　　（4）tsquared是X中样本的T平方统计量，PCA在整个空间中计算使用所有主成分来计算tsquared。

　　注意：

　　（1）当样本个数远小于特征维数的时候，coeff是比较大的，比如你的降维矩阵是100*50000，那么这个转换矩阵的大小是50000*99（并不是50000*50000）。也就是说PCA降维时，降维后特征维数要小于样本个数。

　　（2）选择降维后维度的大小：cumsum(latent)./sum(latent)，通过这样计算特征值的累计贡献率，一般来说都选择前95%的特征值对应的特征向量。比如矩阵100*50000，如果你计算得到前50个特征值的累计贡献率已经超过99.9%，那么就完全可以只要降维后的数据的前50列。

PCA降维—降维后样本维度大小的更多相关文章

初识PCA数据降维
PCA要做的事降噪和去冗余,其本质就是对角化协方差矩阵. 一.预备知识 1.1 协方差分析对于一般的分布,直接代入E(X)之类的就可以计算出来了,但真给你一个具体数值的分布,要计算协方差矩阵,根据这 ...
[机器学习]-PCA数据降维：从代码到原理的深入解析
&*&:2017/6/16update,最近几天发现阅读这篇文章的朋友比较多,自己阅读发现,部分内容出现了问题,进行了更新. 一.什么是PCA:摘用一下百度百科的解释 PCA(Prin ...
使用pca/lda降维
PCA主成分分析 import numpy as np import pandas as pd import matplotlib.pyplot as plt # 用鸢尾花数据集展示降维的效果 f ...
主成分分析PCA数据降维原理及python应用（葡萄酒案例分析）
目录主成分分析(PCA)——以葡萄酒数据集分类为例 1.认识PCA (1)简介 (2)方法步骤 2.提取主成分 3.主成分方差可视化 4.特征变换 5.数据分类结果 6.完整代码总结: 1.认识P ...
深度学习原理与框架-卷积神经网络基本原理 1.卷积层的前向传播 2.卷积参数共享 3. 卷积后的维度计算 4. max池化操作 5.卷积流程图 6.卷积层的反向传播 7.池化层的反向传播
卷积神经网络的应用:卷积神经网络使用卷积提取图像的特征来进行图像的分类和识别分类相似图像搜索 ...
Delphi XE2及以后的版本编译后的程序大小问题
说说Delphi XE2及以后的版本编译后的程序大小问题. 其实最终得到的程序并不大,由于编译器的变化,XE2里Debug版程序比Release版程序大很多,要减小程序体积,就使用Release版.下 ...
运用PCA进行降维的好处
运用PCA对高维数据进行降维,有一下几个特点: (1)数据从高维空间降到低维,因为求方差的缘故,相似的特征会被合并掉,因此数据会缩减,特征的个数会减小,这有利于防止过拟合现象的出现.但PCA并不是一种 ...
PCA数据降维
Principal Component Analysis 算法优缺点: 优点:降低数据复杂性,识别最重要的多个特征缺点:不一定需要,且可能损失有用的信息适用数据类型:数值型数据算法思想: 降维的 ...
机器学习--用PCA算法实现三维样本降到二维
对于维数比较多的数据,首先需要做的事就是在尽量保证数据本质的前提下将数据中的维数降低.降维是一种数据集预处理技术,往往在数据应用在其他算法之前使用,它可以去除掉数据的一些冗余信息和噪声,使数据变得更加 ...

随机推荐

shell脚本while read line的使用
#### 题目要求计算文档a.txt中每一行中出现的数字个数并且要计算一下整个文档中一共出现了几个数字.例如a.txt内容如下:12aa*lkjskdjalskdflkskdjflkjj我们脚本名字为 ...
Python 入门小实例笔记
实例1:打印用户输入的姓名与手机号码知识点:编码,获取输入,变量,标准输出 #encoding=utf-8 import time #1.提示用户输入信息 name = input ("请输 ...
CentOS7服务管理
1.在/usr/lib/systemd/system目录下建立服务启动文件,文件格式:[root@Centos7 ]# cat /usr/lib/systemd/system/nginx.servic ...
linux shell 脚本 svn自动更新项目并且打包、发布、备份
这里先准备一个配置文件,用于保存svn地址.目的路径.用户名跟密码配置文件名问:toolConfig.properties #svn地址 svnAddress=https://192.168.1.2 ...
linux文件名乱码解决
问题描述:公司的FTP服务器早就搭建好,windows客户端可以上传文件到FTP服务器,但是上传去的文件在LINUX目录下文件是乱码. 解决方法:首先编辑/etc/sysconfig/i18n这个文件 ...
Confluence 6 在升级过程中查看合并日志
为了监控升级的过程,你应该查看 application log 日志中的输出. 通常日志经常将会显示多个日志实例,这个实例是定义在日志的 INFO 级别的,通常格式如下: WikiToXhtmlMig ...
Spark读写HBase
Spark读写HBase示例 1.HBase shell查看表结构 hbase(main)::> desc 'SDAS_Person' Table SDAS_Person is ENABLED ...
mysql 压缩版配置
1.解压之后可以将该文件夹改名,放到合适的位置,个人建议把文件夹改名为MySQL Server 5.6,放到C:\Program Files\MySQL路径中.当然你也可以放到自己想放的任意位置. 2 ...
生成器的认识及其思考：VAE, GAN, Flow-based Invertible Model
生成器对应于认知器的逆过程. 这一切的起源都是当初一个极具启发性的思想:Sleep-wake algorithm——人睡眠时整理记忆做梦,是一个生成的过程,即通过最终的识别结果企图恢复接收到的刺激,当 ...
C#UDP广域网，局域网通信-原理分析
一.UDP局域网通信. 这个比较简单,关于局域网中的2台或者更多的计算机之间的UDP通信,网络上一大把,直接复制粘贴就可以使用,原理也非常简单.所以,本文不做详细介绍. 二.UDP广域通信(包括路由器 ...

PCA降维—降维后样本维度大小

PCA降维—降维后样本维度大小的更多相关文章

随机推荐

热门专题