更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：https://www.cnblogs.com/nickchen121/p/11686958.html

scikit-learn库之主成分分析

PCA在scikit-leran库中的sklearn.decomposition包下，PCA即最普通的PCA，PCA也有很多变种，我们主要会讲解PCA，然后聊一聊KernelPCA、IncremetalPCA、SparsePCA、MiniBatchSparsePCA。

接下来将会讨论上述五者的区别，由于是从官方文档翻译而来，翻译会略有偏颇，有兴趣的也可以去scikit-learn官方文档查看https://scikit-learn.org/stable/modules/classes.html#module-sklearn.decomposition

一、PCA

1.1 使用场景

PCA是PCA系列降维算法中最原始的降维方法，因为原始，所以它一般是我们首选的，如果感觉原始的PCA可能无法解决我们的问题，我们可以尝试使用其他的PCA系列的降维算法。

1.2 代码

import numpy as np
from sklearn.decomposition import PCA
X = np.array([[-1, -1, 2], [-2, -1, 1], [-3, -2, 3],
              [1, 1, 2], [2, 1, 2], [3, 2, 3]])

pca = PCA(n_components=2)
pca.fit(X)

PCA(copy=True, iterated_power='auto', n_components=2, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)

print(pca.explained_variance_ratio_)

[0.92991028 0.06363895]

print(pca.singular_values_)

[6.311193   1.65102037]

pca = PCA(n_components=2, svd_solver='full')
pca.fit(X)

PCA(copy=True, iterated_power='auto', n_components=2, random_state=None,
  svd_solver='full', tol=0.0, whiten=False)

print(pca.explained_variance_ratio_)

[0.92991028 0.06363895]

print(pca.singular_values_)

[6.311193   1.65102037]

pca = PCA(n_components=1, svd_solver='arpack')
pca.fit(X)

PCA(copy=True, iterated_power='auto', n_components=1, random_state=None,
  svd_solver='arpack', tol=0.0, whiten=False)

print(pca.explained_variance_ratio_)

[0.92991028]

print(pca.singular_values_)

[6.311193]

1.3 参数

n_components：特征维度数目，float类型或str类型。该参数可以用来控制降维到的维度数。
- 设置一个大于等于1且小于样本特征的整数。
- 设置\((0,1]\)内的数，指定主成分方差和所占的最小比例阈值。
- 设置为'mle'，即由模型通过MLE算法根据特征的方差分布情况自己选择。
copy：bool类型。如果为True，在传递给fit()方法的数据上降维，如果为False，传递给fit()方法的数据将会被覆盖，即在原来的数据上进行降维计算。默认为True。
whiten：白化，bool类型。判断是否白化，白化就是对降维后的数据归一化，让方差都为1。一般不推荐白化，如果PCA降维后需要进行数据处理，可以考虑白化。默认为False。
svd_solver：奇异值分解方法，str类型。指定奇异值分解SVD的方法，一般PCA库都是基于SVD实现的。
- 'auto'：PCA自动权衡下面三种实现方式。
- 'full'：传统的SVD，使用scipy库实现。
- 'arpack'：适用于数据量大，数据维度多，同时主成分数目比例较低的PCA降维，使用scipy库实现。
- 'randomized'：适用于数据量大，数据维度多，同时主成分数目比例较低的PCA降维，使用scikit-learn实现。
tol：停止求解的标准，float类型。当svd_solver='arpack'停止算法的奇异值阈值。默认为0。
iterated_power：int类型或'auto'。当svd_solver='randomized'时计算幂方法的迭代次数。默认为'auto'。
random_state：随机数种子，int类型。使用后可以保证随机数不会随着时间的变化而变化。默认为None。

1.4 属性

components_：array类型。返回具有最大方差的成分。
explained_variance_：array类型。降维后的各主成分的方差值，主成分方差值越大，则说明这个主成分越重要
explained_variance_ratio_：array类型。降维后的各主成分的方差值占总方差值的比例，主成分所占比例越大，则说明这个主成分越重要。
singular_values_：array类型。返回每个成分对应的奇异值。
mean_：array类型。每个值的经验均值。
n_components_：int类型。返回保留的成分个数。
noise_variance_：float类型。返回噪声的协方差。

1.5 方法

fit(X,y)：把数据放入模型中训练模型。
fit_transform(X,[,y])all：训练模型同时返回降维后的数据。
get_covariance()：计算数据的协方差。
get_params([deep])：返回模型的参数，可以用于Pipeline中。
get_precision()：计算数据的精确度矩阵。
inverse_transform：将降维后的数据转换成原始数据，但可能不会完全一样，会有些许差别。
score(X,y)：基于报告决定系数\(R^2\)评估模型。
score_samples：返回每个样本的对数似然。
set_prams(**params)：创建模型参数。
transform(X)：对于训练好的数据降维。

二、KernelPCA

KernelPCA模型类似于非线性支持向量机，使用核技巧处理非线性数据的降维，主要是选择合适的核函数。

三、IncrementalPCA

IncrementalPCA模型主要是为了解决计算机内存限制问题。工业上样本量和维度都是非常大的，如果直接拟合数据，机器性能一般都无法支撑。IncrementalPCA则会将数据分成多个batch，然后对每个batch依次递增调用partial_fit函数对样本降维。

四、SparsePCA

SparsePCA模型相较于普通的PCA区别在于使用了L1正则化，即对非主成分的影响降为0，避免了噪声对降维的影响。

五、MiniBatchSparsePCA

MiniBatchSparsePCA模型类似于SparsePCA，不同之处在于MiniBatchSparsePCA模型通过使用一部分样本特征和给定的迭代次数进行降维，以此来解决特征分解过慢的问题。

05-04 scikit-learn库之主成分分析的更多相关文章

Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
kFreeBSD 7.0于2013/05/04发布桌面环境 GNOME 3....
kFreeBSD 7.0于2013/05/04发布桌面环境 GNOME 3.4, KDE 4.8.4, Xfce 4.8, and LXDE
scikit learn 模块调参 pipeline+girdsearch 数据举例：文档分类（python代码）
scikit learn 模块调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
(原创)（三）机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价模型训练好后,度量模型拟合效果的 ...
(原创)（四）机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
Scikit Learn
Scikit Learn Scikit-Learn简称sklearn,基于 Python 语言的,简单高效的数据挖掘和数据分析工具,建立在 NumPy,SciPy 和 matplotlib 上.
Python第三方库（模块）"scikit learn"以及其他库的安装
scikit-learn是一个用于机器学习的 Python 模块. 其主页:http://scikit-learn.org/stable/. GitHub地址: https://github.com/ ...
ubuontu16.04安装Opencv库引发的find_package()错误信息处理及其简单使用
在安装完Opencv库之后,打算测试一下Opencv库是否成功安装.下面是用的例子对应的.cpp代码以及对应的CMakeLists.txt代码: .cpp文件: #include <stdio. ...
Ubuntu 16.04 安装PCL库以及测试
参考链接:https://blog.csdn.net/dantengc/article/details/78446600 参考博客,官网一直安装不成功,后来参照一篇博客终于安装成功了,记录如下. 1. ...

随机推荐

【Nginx】实现动静分离
一.概述 1.1 动态页面与静态页面区别 1.2 什么是动静分离 1.3 为什么要用动静分离二.Nginx实现动静分离 2.1 架构分析 2.2 配置三.动静分离与前后分离区别: 四.一些问题一 ...
ReentrantLock分析
主要分析下ReentrantLock锁的占用和释放过程. 一.几个核心变量 AbstractOwnableSynchronizer{ /** * 表示当前占有独占锁的线程,为null时说明锁未被占用 ...
lambda表达式与匿名内部类与双冒号(::)
lambda表达式在只有一条代码时还可以引用其他方法或构造器并自动调用,可以省略参数传递,代码更加简洁,引用方法的语法需要使用::符号.lambda表达式提供了四种引用方法和构造器的方式: 引用对象的 ...
JAVA MAP转实体
public static <T> T map2Object(Map<String, Object> map, Class<T> clazz) { SimpleDa ...
使用Hypothesis生成测试数据
Hypothesis是Python的一个高级测试库.它允许编写测试用例时参数化,然后生成使测试失败的简单易懂的测试数据.可以用更少的工作在代码中发现更多的bug. 安装 pip install hyp ...
linux下tomcat无法远程访问（开放8080端口）
我们在linux下配置了tomcat后发现,无法访问除了linux(如果是虚拟机的话,宿主机子根本无法访问tomcat),解决下吧原因是我们的tomcat访问需要8080端口,但是从外部访问,我们的 ...
Python中使用moviepy进行视频分割
场景 moviepy官网: https://pypi.org/project/moviepy/ 是一个用于视频编辑的Python库:切割.连接.标题插入.视频合成.非线性编辑,视频处理和定制效果的创建 ...
request对象的方法
request对象封装的是请求的数据,由服务器创建,作为实参传递给Servlet的方法,一个请求对应一个request对象,request对象可以获得请求数据. 1.获取请求行信息 (1)get提交 ...
搭建数据库galera集群
galera集群 galera简介 galera集群又叫多主集群,用于数据库的同步,保证数据安全最少3台,最好是奇数台数,当一台机器宕掉时,因为仲裁机制,这台机器就会被踢出集群. 通过wsrep协议 ...
.Net WCF服务部署IIS详细解析
官方解析:Windows Communication Foundation(WCF)是由微软开发的一系列支持数据通信的应用程序框架,可以翻译为Windows 通讯开发平台.整合了原有的windows通 ...

05-04 scikit-learn库之主成分分析