【笔记】scikit-learn中的PCA(真实数据集)
sklearn中的PCA(真实的数据集)
(在notebook中)
加载好需要的内容,手写数字数据集
import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
digits = datasets.load_digits()
X = digits.data
y = digits.target
首先对数据集进行分割
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)
相应的在X_train中用shape可以看出来,其中有1347个样本,每个样本有64个特征
结果如下
我们用KNN来训练,引入方法,进行初始化以后进行fit
%%time
from sklearn.neighbors import KNeighborsClassifier
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train,y_train)
结果如下
看一下这样的准确度是多少
knn_clf.score(X_test,y_test)
结果如下
这就是我们使用全部的数据集进行训练以后进行识别得到的结果
然后我们尝试用sklearn中的PCA来进行降维
引入并进行实例化,维度设置为2,然后进行fit操作,传入以后就可以得到X_train_reduction(对训练数据集降维以后的结果),同样,对测试数据集一样进行降维
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
pca.fit(X_train)
X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test)
这样就可以生成一个新的KNN识别器,同样的操作以后
%%time
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train_reduction,y_train)
结果如下
可以发现计算的时间降低了非常多,这就是对于高维数据来说,将其降维到低维以后将会大大的节省计算的时间
那么我们再来看一下这个识别器的精度如何
knn_clf.score(X_test_reduction,y_test)
结果如下
可以发现,这个精度降低了很多,这不是能接受的,这样就有了一个矛盾,速度提升了许多但是同时精度也降低了很多,很显然两维太低了,那么我们怎么找到好一些的维度数呢,在pca中有pca.explained_variance_ratio_,这个数据就告诉我们维持的方差,那么想要方差维持最大,这就可以找到
pca.explained_variance_ratio_
结果如下(这个意思就是有两个比例,一个0.14上下,一个0.13上下,其就是两个轴,第一个轴可以解释原数据的14.5%的方差,第二个可以解释原数据13.7%的方差,也就是这个二维一共包含了方差的28%上下,剩下的全部都丢失了)
那么我们怎么找呢
首先实例一下pca,然后传入训练数据集对应的特征数,然后进行fit操作,并打印出
pca.explained_variance_ratio_
pca = PCA(n_components=X_train.shape[1])
pca.fit(X_train)
pca.explained_variance_ratio_
结果如下(这就是对于主成分来说,依次的可以解释的方差是多少,这就可以表示成每一个轴的重要程度)
这里我们做一个折线图,横轴是维度,纵轴是前i个轴解释的方差的和
plt.plot([i for i in range(X_train.shape[1])],
[np.sum(pca.explained_variance_ratio_[:i+1]) for i in range(X_train.shape[1])])
图像如下(通过这个图就可以看出来相应的需要的维度数以及重要程度)
在sklearn中的PCA,如果说希望数据保持95%以上的信息,可以直接传入一个0到1的数字,即就是解释多少的方差,然后进行fit
pca = PCA(0.95)
pca.fit(X_train)
结果如下
使用pca.n_components_看一下需要多少的维度
结果如下(即28个维度就可以保持95%以上)
这时候来运行一下,同时看一下要多长时间
X_train_reduction = pca.transform(X_train)
X_test_reduction = pca.transform(X_test)
%%time
knn_clf = KNeighborsClassifier()
knn_clf.fit(X_train_reduction,y_train)
结果如下
同时我们看一下这个准确度如何
knn_clf.score(X_test_reduction,y_test)
结果如下
可以说这样的操作比全样本快,精确度虽然低,这是可以接受的,有时候是可以牺牲精度来换取时间的
将数据降到二维也不是说一点用没有,其还可以进行可视化
pca = PCA(n_components=2)
pca.fit(X)
X_reduction = pca.transform(X)
X_reduction.shape
结果如下
此时就可以对数据进行绘制
for i in range(10):
plt.scatter(X_reduction[y==i,0],X_reduction[y==i,1],alpha=0.8)
结果如下
可以发现,有些数据到了二维也有很好的区分度,那么如果要使用这种数据的话,实际上用二维也是可以的
【笔记】scikit-learn中的PCA(真实数据集)的更多相关文章
- (原创)(三)机器学习笔记之Scikit Learn的线性回归模型初探
一.Scikit Learn中使用estimator三部曲 1. 构造estimator 2. 训练模型:fit 3. 利用模型进行预测:predict 二.模型评价 模型训练好后,度量模型拟合效果的 ...
- (原创)(四)机器学习笔记之Scikit Learn的Logistic回归初探
目录 5.3 使用LogisticRegressionCV进行正则化的 Logistic Regression 参数调优 一.Scikit Learn中有关logistics回归函数的介绍 1. 交叉 ...
- Scikit Learn: 在python中机器学习
转自:http://my.oschina.net/u/175377/blog/84420#OSC_h2_23 Scikit Learn: 在python中机器学习 Warning 警告:有些没能理解的 ...
- 在SCIKIT中做PCA 逆运算 -- 新旧特征转换
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
- 在SCIKIT中做PCA 逆变换 -- 新旧特征转换
PCA(Principal Component Analysis)是一种常用的数据分析方法.PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降 ...
- scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类 (python代码)
scikit learn 模块 调参 pipeline+girdsearch 数据举例:文档分类数据集 fetch_20newsgroups #-*- coding: UTF-8 -*- import ...
- Python机器学习笔记 使用scikit-learn工具进行PCA降维
之前总结过关于PCA的知识:深入学习主成分分析(PCA)算法原理.这里打算再写一篇笔记,总结一下如何使用scikit-learn工具来进行PCA降维. 在数据处理中,经常会遇到特征维度比样本数量多得多 ...
- sklearn中调用PCA算法
sklearn中调用PCA算法 PCA算法是一种数据降维的方法,它可以对于数据进行维度降低,实现提高数据计算和训练的效率,而不丢失数据的重要信息,其sklearn中调用PCA算法的具体操作和代码如下所 ...
- 从头开始学JavaScript 笔记(一)——基础中的基础
原文:从头开始学JavaScript 笔记(一)--基础中的基础 概要:javascript的组成. 各个组成部分的作用 . 一.javascript的组成 javascript ECMASc ...
随机推荐
- 详解 MD5 信息摘要算法
对于软件研发人员来说 MD5 不是一个陌生的词汇,平时的软件研发中,经常使用 MD5 校验消息是否被篡改.验证文件完整性,甚至将MD5当作加密算法使用. MD5虽不陌生,但不是所有研发人员都了解其算法 ...
- Swoole_process实现进程池的方法
Swoole 的进程之间有两种通信方式,一种是消息队列(queue),另一种是管道(pipe),对swoole_process 的研究在swoole中显得尤为重要. 预备知识 IO多路复用 swool ...
- Django基础-002 Models的属性与字段
1.models字段类型 AutoField():一个IntegerField,根据可用ID自动递增.如果没指定主键,就创建它自动设置为主键. IntegerField():一个整数: FloatFi ...
- 虚拟局域网VLAN简介
VLAN 1.根据端口划分VLAN 2.根据MAC地址划分VLAN 3.根据网络层划分VLAN 4. IP组播作为VLAN VLAN优点 1.减少移动和改变的代价 2.虚拟工作组 3.限制广播包 4. ...
- C语言:条件编译
假如现在要开发一个C语言程序,让它输出红色的文字,并且要求跨平台,在 Windows 和 Linux 下都能运行,怎么办呢?这个程序的难点在于,不同平台下控制文字颜色的代码不一样,我们必须要能够识别出 ...
- SQL注入:sqli-labs lesson-1 小白详解
为什么是小白详解?因为我就是小白 SQL注入早有耳闻,今天算是真正打开这个门了,但是想要跨进去应该还是没有那么容易. 在B站上听了40分钟的网课,老实说,他讲的还不错,第一遍听不懂也正常 https: ...
- 【经典结构】单例模式Singleton
单例模式Singleton 1.含义 单例模式:即一个类只能创建一个实例. 只有一个实例 --> 不可以从类外new对象 --> 构造器私有化private --> 从类里创建实例: ...
- PAT甲级:1064 Complete Binary Search Tree (30分)
PAT甲级:1064 Complete Binary Search Tree (30分) 题干 A Binary Search Tree (BST) is recursively defined as ...
- [JS]闭包和词法环境
词法环境 词法环境(lexical environment)由两个部分组成: 环境记录--一个存储所有局部变量作为其属性的对象. 对外部词法环境的引用,与外部代码相关联. 全局词法环境在脚本执行前创建 ...
- 医疗器械软件产品经理必读的法规及标准-YY/T0664(二)
上节主要讲了软件开发策划.软件需求分析.软件系统结构设计三个阶段,这节来分析以下几个阶段. 1.软件单元实现 2.软件集成和集成测试 3.软件系统测试 软件开发过程由若干个活动组成,主要包括软件开发策 ...