Spark 2.0 PCA主成份分析

PCA在Spark2.0中用法比较简单，只需要设置：

.setInputCol(“features”)//保证输入是特征值向量

.setOutputCol(“pcaFeatures”)//输出

.setK()//主成分个数

注意：PCA前一定要对特征向量进行规范化（标准化）！！！

//Spark 2.0 PCA主成分分析

//注意：PCA降维前必须对原始数据（特征向量）进行标准化处理

package my.spark.ml.practice;

import org.apache.spark.ml.feature.PCA;

import org.apache.spark.ml.feature.PCAModel;//不是mllib

import org.apache.spark.ml.feature.StandardScaler;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.SparkSession;

public class myPCA {

    public static void main(String[] args) {

        SparkSession spark=SparkSession

                .builder()

                .appName("myLR")

                .master("local[4]")

                .getOrCreate();

        Dataset<Row> rawDataFrame=spark.read().format("libsvm")

          .load("/home/hadoop/spark/spark-2.0.0-bin-hadoop2.6" +

                "/data/mllib/sample_libsvm_data.txt");

        //首先对特征向量进行标准化

        Dataset<Row> scaledDataFrame=new StandardScaler()

                  .setInputCol("features")

                  .setOutputCol("scaledFeatures")

                  .setWithMean(false)//对于稀疏数据（如本次使用的数据），不要使用平均值

                  .setWithStd(true)

                  .fit(rawDataFrame)

                  .transform(rawDataFrame);

        //PCA Model

        PCAModel pcaModel=new PCA()

                      .setInputCol("scaledFeatures")

                      .setOutputCol("pcaFeatures")

                      .setK()//

                      .fit(scaledDataFrame);

        //进行PCA降维

        pcaModel.transform(scaledDataFrame).select("label","pcaFeatures").show(,false);

    }

}

/**

 * 没有标准化特征向量，直接进行PCA主成分：各主成分之间值变化太大，有数量级的差别。

+-----+------------------------------------------------------------+

|label|pcaFeatures                                                 |

+-----+------------------------------------------------------------+

|0.0  |[-1730.496937303442,6.811910953794295,2.8044962135250024]   |

|1.0  |[290.7950975587044,21.14756134360174,0.7002807351637692]    |

|1.0  |[149.4029441007031,-13.733854376555671,9.844080682283838]   |

|1.0  |[200.47507801105797,18.739201694569232,22.061802015132024]  |

|1.0  |[236.57576401934855,36.32142445435475,56.49778957910826]    |

|0.0  |[-1720.2537550195714,25.318146742090196,2.8289957152580136] |

|1.0  |[285.94940382351075,-6.729431266185428,-33.69780131162192]  |

|1.0  |[-323.70613777909136,2.72250162998038,-0.528081577573507]   |

|0.0  |[-1150.8358810584655,5.438673892459839,3.3725913786301804]  |

 */

/**

 * 标准化特征向量后PCA主成分，各主成分之间值基本上在同一水平上，结果更合理

 |label|pcaFeatures                                                  |

+-----+-------------------------------------------------------------+

|0.0  |[-14.998868464839624,-10.137788261664621,-3.042873539670117] |

|1.0  |[2.1965800525589754,-4.139257418439533,-11.386135042845101]  |

|1.0  |[1.0254645688925883,-0.8905813756164163,7.168759904518129]   |

|1.0  |[1.5069317554093433,-0.7289177578028571,5.23152743564543]    |

|1.0  |[1.6938250375084654,-0.4350617717494331,4.770263568537382]   |

|0.0  |[-15.870371979062549,-9.999445137658528,-6.521920373215663]  |

|1.0  |[3.023279951602481,-4.102323190311296,-9.451729897327345]    |

|1.0  |[3.500670997961283,-4.1791886802435805,-9.306353932746568]   |

|0.0  |[-15.323114679599747,-16.83241059234951,2.0282183995400374]  |

*/

如何选择k值？

//PCA Model

        PCAModel pcaModel=new PCA()

                      .setInputCol("scaledFeatures")

                      .setOutputCol("pcaFeatures")

                      .setK()//

                      .fit(scaledDataFrame);

        int i=;

        for(double x:pcaModel.explainedVariance().toArray()){

        System.out.println(i+"\t"+x+"  ");

        i++;

        }

输出100个降序的explainedVariance（和scikit-learn中PCA一样）：

   0.25934799275530857

   0.12355355301486977

   0.07447670060988294

   0.0554545717486928

   0.04207050513264405

   0.03715986573644129

   0.031350566055423544

   0.027797304129489515

   0.023825873477496748

  0.02268054946233242

  0.021320060154167115

  0.019764029918116235

  0.016789082901450734

  0.015502412597350008

  0.01378190652256973

  0.013539546429755526

  0.013283518226716669

  0.01110412833334044

...

大约选择20个主成分就足够了
随便做一个图可以选择了（详细可参考Scikit-learn例子）
http://scikit-learn.org/stable/auto_examples/plot_digits_pipe.html

Spark 2.0 PCA主成份分析的更多相关文章

PCA主成份分析
1 背景介绍真实的训练数据总是存在各种各样的问题: 1. 比如拿到一个汽车的样本,里面既有以“千米/每小时”度量的最大速度特征,也有“英里/小时”的最大速度特征,显然这两个特征有一个多余. 2. ...
pca主成份分析方法
1.应用pca的前提应用pca的前提是,连续信号具有相关性.相关性是什么,是冗余.就是要利用pca去除冗余. 2.pca的定义 pca是一种去除随机变量间相关性的线性变换.是一种常用的多元数据分析方 ...
【主成份分析】PCA推导
### 主成份分析(Pricipal components analysis PCA) 假设空间$R^{n}$中有m个点{$x^{1},......,x^{n}$},希望压缩,对每个$x^{i}$都有 ...
PCA主成份分析学习记要
前言主成份分析,简写为PCA(Principle Component Analysis).用于提取矩阵中的最主要成分,剔除冗余数据,同时降低数据纬度.现实世界中的数据可能是多种因数叠加的结果,如果这 ...
principal components analysis 主成份分析
w http://deeplearning.stanford.edu/wiki/index.php/主成份分析主成分分析(PCA)及其在R里的实现 - jicf的日志 - 网易博客 http:// ...
主成份分析PCA
Data Mining 主成分分析PCA 降维的必要性 1.多重共线性--预测变量之间相互关联.多重共线性会导致解空间的不稳定,从而可能导致结果的不连贯. 2.高维空间本身具有稀疏性.一维正态分布有6 ...
吴裕雄 python 机器学习——主成份分析PCA降维
# -*- coding: utf-8 -*- import numpy as np import matplotlib.pyplot as plt from sklearn import datas ...
PCA(主成分析)
PCA通过将高维空间向量映射到低维,对于数据进行处理
PCA--主成份分析
主成份分析(Principle Component Analysis)主要用来对数据进行降维.对于高维数据,处理起来比较麻烦,而且高维数据可能含有相关的维度,数据存在冗余,PCA通过把高维数据向低维映 ...

随机推荐

HeadFirst jsp 08 无脚本JSP
web页面设计人员真的必须懂 java ? web页面人员可以很快学习 EL 语言. 目前不知道 EL 应用前景如何, 但是我们香港系统没有使用 EL. include 指令 include指令告诉容 ...
[插件] 如何在一个页面中使用多个SWFUpload对象上传文件
首先需要引入相应的样式和JS文件,还需要借助jQuery的js 提供下载路径:http://pan.baidu.com/s/1EUzca ① 引入js <script type="te ...
imx6 MfgTool分析
解析freescale的MfgTool中的脚本,了解imx6, android系统的分区情况. 配置文件 1. cfg.ini [profiles] chip = MX6DL Linux Update ...
快速开发 jQuery 插件的 10 大技巧(转)
1. 把你的代码全部放在闭包里面这是我用的最多的一条.但是有时候在闭包外面的方法会不能调用.不过你的插件的代码只为你自己的插件服务,所以不存在这个问题,你可以把所有的代码都放在闭包里面.而方法可能应 ...
【BZOJ】1101: [POI2007]Zap（莫比乌斯+分块）
http://www.lydsy.com/JudgeOnline/problem.php?id=1101 无限膜拜数论和分块orz 首先莫比乌斯函数的一些性质可以看<初等数论>或<具 ...
【BZOJ】1064: [Noi2008]假面舞会（判环+gcd+特殊的技巧）
http://www.lydsy.com/JudgeOnline/problem.php?id=1064 表示想到某一种情况就不敢写下去了.... 就是找环的gcd...好可怕.. 于是膜拜了题解.. ...
LoadRunner中winsocket协议学习
首先让我们先看一下loadrunner- winsock 函数一览表: lrs_accept_connection 接受侦听套接字连接 lrs_close_socket 关闭打开的套接 ...
CImage类提供了GetBits()函数原理及实现
CImage类提供了GetBits()函数来读取数据区,GetBits()函数返回的是图片最后一行第一个像素的地址,网上有人说返回指针的起始位置是不同的,有些图片返回的是左上角像素的地址,有些是左下角 ...
Eclipse导入MyEclipseproject（web项目显示为java项目解决的方法）
在直接Import MyEclipse的项目文件导入到Eclipse之后,须要在项目所放的workspace内改动引入项目文件夹下的.project文件,改动例如以下: 1.在eclipse中新建一个 ...
剑指 offer set 15 第一个只出现一次的字符
题目描述: 在一个字符串(1<=字符串长度<=10000,全部由大写字母组成)中找到第一个只出现一次的字符思路: 1. 给定的题目约束比较多, 因此可以自定义哈希函数 2. 字符是一个长 ...

Spark 2.0 PCA主成份分析

Spark 2.0 PCA主成份分析的更多相关文章

随机推荐

热门专题