PCA实现

代码实现分成好多种层级，有的代码只使用标准库实现，有的代码基于其它库实现，有的代码直接调用库中现有的实现。

在本文中，按照不同的层级分别实现PCA

对于分类问题基本任务可以描述如下

x11 x12 x13 x14 y1

x21 x22 x23 x24 y2

x31 x32 x33 x34 y3

......

PCA用于提取样本的主要特征，它只跟属性有关，而跟类别数据无关。也就是说，PCA只跟X有关而跟Y无关。

import numpy as np

from sklearn.decomposition import PCA

# 10个样本，每个样本7个属性，现在要取其中的3个属性

train_x = np.random.rand(10, 7)

train_y = np.random.randint(0, 3, (100, 1))

#使用sklearn

p = PCA(n_components=3)

p.fit(train_x, train_y)

train_data = p.transform(train_x)

# 使用numpy中的协方差计算、特征值求解来实现

mu = np.mean(train_x, axis=0)  # 均值向量

# 协方差矩阵，cov默认是列向量，这里需要T表示将行向量转置称列向量

# 使用参数rowvar=False相当于矩阵转置

A = np.cov(np.asmatrix(train_x - mu).T)

root, vec = np.linalg.eig(A)

ind = np.argsort(root)

transform_matrix = np.asmatrix(vec[:, ind[-3:]])

train_data2 = np.asmatrix(train_x - mu) * transform_matrix

# 自己实现协方差计算，只使用numpy中的特征值求解来实现

mu = np.mean(train_x, axis=0)

A = np.dot((train_x - mu).T, (train_x - mu)) / (len(train_x) - 1)

root, vec = np.linalg.eig(A)

# 返回的特征根是无序的，需要进行排序

ind = np.argsort(root)

# vec[:ind[-3:]]或者vec[:ind[-1:-4:-1]]都是可以的

transform_matrix = np.asmatrix(vec[:, ind[-3:]])

train_data3 = np.asmatrix(train_x - mu) * transform_matrix

print(np.sum(train_data - train_data2), np.sum(train_data - train_data3))

PCA实现的更多相关文章

用scikit-learn学习主成分分析(PCA)
在主成分分析(PCA)原理总结中,我们对主成分分析(以下简称PCA)的原理做了总结,下面我们就总结下如何使用scikit-learn工具来进行PCA降维. 1. scikit-learn PCA类介绍 ...
主成分分析（PCA）原理总结
主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一.在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用.一般我们提到降维最容易想到的算法就 ...
机器学习基础与实践（三）----数据降维之PCA
写在前面:本来这篇应该是上周四更新,但是上周四写了一篇深度学习的反向传播法的过程,就推迟更新了.本来想参考PRML来写,但是发现里面涉及到比较多的数学知识,写出来可能不好理解,我决定还是用最通俗的方法 ...
数据降维技术（1）—PCA的数据原理
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
深度学习笔记——PCA原理与数学推倒详解
PCA目的:这里举个例子,如果假设我有m个点,{x(1),...,x(m)},那么我要将它们存在我的内存中,或者要对着m个点进行一次机器学习,但是这m个点的维度太大了,如果要进行机器学习的话参数太多, ...
PCA、ZCA白化
白化是一种重要的预处理过程,其目的就是降低输入数据的冗余性,使得经过白化处理的输入数据具有如下性质:(i)特征之间相关性较低:(ii)所有特征具有相同的方差. 白化又分为PCA白化和ZCA白化,在数据 ...
PCA 协方差矩阵特征向量的计算
人脸识别中矩阵的维数n>>样本个数m. 计算矩阵A的主成分,根据PCA的原理,就是计算A的协方差矩阵A'A的特征值和特征向量,但是A'A有可能比较大,所以根据A'A的大小,可以计算AA'或 ...
【统计学习】主成分分析PCA(Princple Component Analysis)从原理到实现
[引言]--PCA降维的作用面对海量的.多维(可能有成百上千维)的数据,我们应该如何高效去除某些维度间相关的信息,保留对我们"有用"的信息,这是个问题. PCA给出了我们一种解决 ...
主成分分析 (PCA) 与其高维度下python实现(简单人脸识别)
Introduction 主成分分析(Principal Components Analysis)是一种对特征进行降维的方法.由于观测指标间存在相关性,将导致信息的重叠与低效,我们倾向于用少量的.尽可 ...
PCA与LDA的区别与联系
由于涉及内容较多,这里转载别人的博客: http://blog.csdn.net/sunmenggmail/article/details/8071502 其实主要在于:PCA与LDA的变换矩阵不同, ...

随机推荐

删除一个存在的RabbitMQ队列
import sys # pip install kafka-python sys.path.append("/usr/local/software/ELK") from Util ...
CS224d 单隐层全连接网络处理英文命名实体识别tensorflow
什么是NER? 命名实体识别(NER)是指识别文本中具有特定意义的实体,主要包括人名.地名.机构名.专有名词等.命名实体识别是信息提取.问答系统.句法分析.机器翻译等应用领域的重要基础工具,作为结构化 ...
PostgreSQL的SQL语句中的双引号引发的问题
最近开发一个WEB的ETL工具需要用到不同的数据源.第一次用POSTGRESQL发现一个双引号引发的问题: 标准的SQL是不区分大小写的.但是PostgreSQL对于数据库中对象的名字允许使用支持大小 ...
6-1 并行程序模拟 uva210
用到了 deque 和queue 操作说明: queue qu: qu.push(x); int d=qu.front(); qu.pop(); 和栈一样只有push和pop ...
【Java】剑指offer(39) 数组中出现次数超过一半的数字
本文参考自<剑指offer>一书,代码采用Java语言. 更多:<剑指Offer>Java实现合集题目数组中有一个数字出现的次数超过数组长度的一半,请找出这个数字.例如 ...
win10搭建tensorflow-gpu环境
昨天辛苦的配了GPU环境,记录一下防止以后还需要用到. 我配GPU的目的是用tensorflow的gpu来加速不用ubuntu是因为一来不习惯,二来我不会配ubuntu的扩展显示器,就更不习惯了,习 ...
AGC 001E.BBQ Hard(组合 DP)
题目链接 \(Description\) 给定长为\(n\)的两个数组\(a,b\),求\[\sum_{i=1}^n\sum_{j=i+1}^n\binom{a_i+a_j+b_i+b_j}{a_i+ ...
POJ.1743.Musical Theme(后缀数组倍增二分 / 后缀自动机)
题目链接 \(Description\) 给定一段数字序列(Ai∈[1,88]),求最长的两个子序列满足: 1.长度至少为5 2.一个子序列可以通过全部加或减同一个数来变成另一个子序列 3.两个子序列 ...
Table 'performance_schema.session_status' doesn't exist错误，解决办法
Mysql升级到5.7+之后一直出现Table 'performance_schema.session_status' doesn't exist错误,解决办法 1. 进入Mysql的安装目录的bin ...
gitbook构建文档命令
安装node: sudo ln -s /opt/node-v8.3.9-linux-x64/bin/node /usr/local/bin/node sudo ln -s /opt/node-v8.3 ...

PCA实现

PCA实现的更多相关文章

随机推荐

热门专题