PCA

一、概念

主成分分析（Principal Component Analysis）是指将多个变量通过线性变换以选出较少数重要变量的一种多元统计分析方法，又称为主成分分析。在实际应用场合中，为了全面分析问题，往往提出很多与此有关的变量（或因素），因为每个变量都在不同程度上反映这个应用场合的某些信息。

主成分分析是设法将原来众多具有一定相关性（比如N个指标）的指标，重新组合成一组新的相互无关的综合指标来代替原来的指标，从而实现数据降维的目的，这也是MLlib的处理手段之一。

二、代码实现

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.mllib.feature.PCA;

import org.apache.spark.mllib.feature.PCAModel;

import org.apache.spark.mllib.linalg.Matrix;

import org.apache.spark.mllib.linalg.Vector;

import org.apache.spark.mllib.linalg.Vectors;

import org.apache.spark.mllib.linalg.distributed.RowMatrix;

import org.apache.spark.mllib.regression.LabeledPoint;

import org.apache.spark.rdd.RDD;

SparkConf conf = new  SparkConf().setAppName("PCA").setMaster("local");

JavaSparkContext sc = new  JavaSparkContext(conf);

/**

  *  使用test.data矩阵

     1 2 3 4 5 6 7 8 9

     5 6 7 8 9 0 8 6 7

     9 0 8 7 1 4 3 2 1

     6 4 2 1 3 4 2 1 5

  */

JavaRDD<String> source =  sc.textFile("data/mllib/test.data");

JavaRDD<Vector> data =  source.map(line->{

     String[] parts = line.split(" ");

     return  Vectors.dense(Double.parseDouble(parts[0]),

             Double.parseDouble(parts[1]),

             Double.parseDouble(parts[2]),

             Double.parseDouble(parts[3]),

             Double.parseDouble(parts[4]),

             Double.parseDouble(parts[5]),

             Double.parseDouble(parts[6]),

             Double.parseDouble(parts[7]),

             Double.parseDouble(parts[8]));

});

data.foreach(x->{

     System.out.println(x);

});

控制台输出结果:

[1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0]

[5.0,6.0,7.0,8.0,9.0,0.0,8.0,6.0,7.0]

[9.0,0.0,8.0,7.0,1.0,4.0,3.0,2.0,1.0]

[6.0,4.0,2.0,1.0,3.0,4.0,2.0,1.0,5.0]

RowMatrix rm = new  RowMatrix(data.rdd());

Matrix pc =  rm.computePrincipalComponents(3);

System.out.println(pc);

控制台输出结果:

-0.41267731212833847   -0.3096216957951525    0.1822187433607524

0.22357946922702987    -0.08150768817940773   0.5905947537762997

-0.08813803143909382   -0.5339474873283436    -0.2258410886711858

0.07580492185074224   -0.56869017430423       -0.28981327663106565

0.4399389896865264     -0.23105821586820194   0.3185548657550075

-0.08276152212493619  0.3798283369681188      -0.4216195003799105

0.3952116027336311     -0.19598446496556066   -0.17237034054712738

0.43580231831608096    -0.023441639969444372  -0.4151661847170216

0.468703853681766     0.2288352748369381      0.04103087747663084

可以看到，主成分矩阵是一个尺寸为(9,3)的矩阵，其中每一列代表一个主成分（新坐标轴），每一行代表原有的一个特征，而a.data矩阵可以看成是一个有4个样本，9个特征的数据集，那么，主成分矩阵相当于把原有的9维特征空间投影到一个3维的空间中，从而达到降维的效果。

RowMatrix rm2 = rm.multiply(pc);

RDD<Vector> v = rm2.rows();

JavaRDD<Vector> vector = v.toJavaRDD();

vector.foreach(x->{

   System.out.println(x);

});

控制台输出结果:

[12.247647483894383,-2.725468189870252,-5.568954759405281]

[12.284448024169402,-12.510510992280857,-0.16048149283293078]

[-1.2537294080109986,-10.15675264890709,-4.8697886049036025]

[2.8762985358626505,-2.2654415718974685,1.428630138613534]

MLlib提供的PCA变换方法最多只能处理65535维的数据。

spark机器学习从0到1主成分分析-PCA (八）的更多相关文章

spark机器学习从0到1介绍入门之(一）
一.什么是机器学习机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论.统计学.逼近论.凸分析.算法复杂度理论等多门学科.专门研究计算机怎样模拟或实现人类的学习行 ...
spark机器学习从0到1特征提取 TF-IDF(十二）
一.概念 “词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度. 词语由t表示,文档由d表示,语料库由D表示.词频TF ...
spark机器学习从0到1奇异值分解-SVD (七）
降维(Dimensionality Reduction) 是机器学习中的一种重要的特征处理手段,它可以减少计算过程中考虑到的随机变量(即特征)的个数,其被广泛应用于各种机器学习问题中,用于消除噪声 ...
spark机器学习从0到1基本数据类型之(二）
MLlib支持存储在单个机器上的局部向量和矩阵,以及由一个或多个RDD支持的分布式矩阵. 局部向量和局部矩阵是用作公共接口的简单数据模型. 底层线性代数操作由Breeze提供. 在监督学习中使 ...
[机器学习之13]降维技术——主成分分析PCA
始终贯彻数据分析的一个大问题就是对数据和结果的展示,我们都知道在低维度下数据处理比较方便,因而数据进行简化成为了一个重要的技术.对数据进行简化的原因: 1.使得数据集更易用使用.2.降低很多算法的计算 ...
spark机器学习从0到1特征变换-标签和索引的转化（十六）
一.原理在机器学习处理过程中,为了方便相关算法的实现,经常需要把标签数据(一般是字符串)转化成整数索引,或是在计算结束后将整数索引还原为相应的标签. Spark ML 包中提供了几个相关的转换器 ...
spark机器学习从0到1特征选择-卡方选择器（十五）
一.公式卡方检验的基本公式,也就是χ2的计算公式,即观察值和理论值之间的偏差卡方检验公式其中:A 为观察值,E为理论值,k为观察值的个数,最后一个式子实际上就是具体计算的方法了 n 为总 ...
spark机器学习从0到1机器学习工作流 (十一）
一.概念一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出.这非常类似于流水线式工作,即通常会包含源数据ETL(抽取.转化.加载),数据预处理,指标提取,模型训练与交叉 ...
spark机器学习从0到1决策树(六）
一.概念决策树及其集合是分类和回归的机器学习任务的流行方法. 决策树被广泛使用,因为它们易于解释,处理分类特征,扩展到多类分类设置,不需要特征缩放,并且能够捕获非线性和特征交互. 诸如随机森林和 ...

随机推荐

杂园日记-获取URL参数
function getUrlParams(name, url){ var locationUrl = window.location.search; if(url){ var s =url.inde ...
箭头函数的this指向问题-一看就懂
OK,对于箭头函数的this 用一句话概括:箭头函数中的this指向的是定义时的this,而不是执行时的this. 如果上面这句话听的是懂非懂或者完全不懂的,没关系,下面会有案例讲解. 举个栗子来看 ...
Makefile: missing separator(did you mean TAB instead of 8 spaces?). Stop.
通常我们会对vimrc文件加以配置(如将TAB键自动转换为4个空白键). 但正是由于将tab键转换为n个空白键,使得用vim编写的Makefile中不存在tab键(即“\t”)了.恰恰Makefile ...
谷歌浏览器报错Unchecked runtime.lastError: The message port closed before a response was received.。
浏览器版本 : 报错原因:扩展程序问题解决建议:打开chrome://extensions/,逐一关闭排查
HTML入门（HB、DW）
一.文字内容 /*加粗 & ...
ubuntu 14.04安装pycharm 社区版
https://blog.csdn.net/u013733432/article/details/54425831 转载于:https://www.cnblogs.com/liu-shiliu/p/1 ...
Android Room SQLite持久层框架
原文链接前言 Android中提供了SQLite数据库进行数据的持久化 ,并提供了对应API访问数据库,而Room框架提供了SQLite数据访问抽象层,为高效的数据库访问层带来便捷 APP可以缓存用 ...
导入sql错误
2019独角兽企业重金招聘Python工程师标准>>> 导入sql错误: This function has none of DETERMINISTIC, NO SQL, or RE ...
java中for循环和while循环，哪个更快？--一道面试题
for的 while的
使用SWIG将C++接口转换成Java接口
PS:此文章仅作为个人记录使用,代码属于私密,故无法公开: 以C++类classifier为例,文件保存于百度网盘 https://pan.baidu.com/s/1c2AwhaS(需密码) 系统:U ...

spark机器学习从0到1主成分分析-PCA (八）

一、概念

二、代码实现

spark机器学习从0到1主成分分析-PCA (八）的更多相关文章

随机推荐

热门专题