Spark MLlib编程API入门系列之特征提取之主成分分析(PCA)

【Spark MLlib编程API入门系列之特征提取之主成分分析(PCA)】的更多相关文章

Spark MLlib编程API入门系列之特征提取之主成分分析(PCA)

不多说,直接上干货! 主成分分析(Principal Component Analysis,PCA), 将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法. 参考 http://blog.csdn.net/legotime/article/details/51836026…

Spark MLlib编程API入门系列之特征选择之卡方特征选择（ChiSqSelector）

不多说,直接上干货! 特征选择里,常见的有:VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择). ChiSqSelector用于使用卡方检验来选择特征(降维).即来特征选择. 我这里,采取手动创建.(但是,这仅仅是为了初学者.我不建议,最好用maven) 完整代码 ChiSqSelector .scala package zhouls.bigdata.DataFeatureSelection import org.apache.spa…

Spark MLlib编程API入门系列之特征选择之向量选择（VectorSlicer）

不多说,直接上干货! 特征选择里,常见的有:VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择). VectorSlicer用于从原来的特征向量中切割一部分,形成新的特征向量,比如,原来的特征向量长度为10,我们希望切割其中的5~10作为新的特征向量,使用VectorSlicer可以快速实现. 理论,见机器学习概念之特征选择(Feature selection)之VectorSlicer算法介绍完整代码 VectorSlicer .…

Spark MLlib编程API入门系列之特征选择之R模型公式（RFormula）

不多说,直接上干货! 特征选择里,常见的有:VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择). RFormula用于将数据中的字段通过R语言的Model Formulae转换成特征值,输出结果为一个特征向量和Double类型的label.关于R语言Model Formulae的介绍可参考:https://stat.ethz.ch/R-manual/R-devel/library/stats/html/formula.html 代码编…

Spark SQL 编程API入门系列之SparkSQL的依赖

不多说,直接上干货! 不带Hive支持 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2.</artifactId> <version></version> </dependency> 带Hive支持(推荐使用) <dependency> <groupId>org.apache.spark&l…

Spark SQL 编程API入门系列之Spark SQL支持的API

不多说,直接上干货! Spark SQL支持的API SQL DataFrame(推荐方式,也能执行SQL) Dataset(还在发展) SQL SQL 支持basic SQL syntax/HiveQL 程序中使用SQL会返回DataFrame command-line和JDBC/ODBC中均可以使用…

Spark SQL 编程API入门系列之SparkSQL数据源

不多说,直接上干货! SparkSQL数据源:从各种数据源创建DataFrame 因为 spark sql,dataframe,datasets 都是共用 spark sql 这个库的,三者共享同样的代码优化,生成以及执行流程,所以 sql,dataframe,datasets 的入口都是 sqlContext. 可用于创建 spark dataframe 的数据源有很多: SparkSQL数据源:RDD val sqlContext = new org.apache.spark.sql.SQL…

Spark SQL 编程API入门系列之Spark SQL的作用与使用方式

不多说,直接上干货! Spark程序中使用SparkSQL 轻松读取数据并使用SQL 查询,同时还能把这一过程和普通的Python/Java/Scala 程序代码结合在一起. CLI---Spark SQL shell JDBC/ODBC 各种支持jdbc的软件.商业智能(BI)工具.平台…

Spark SQL 编程API入门系列之SparkSQL的入口

不多说,直接上干货! SparkSQL的入口:SQLContext SQLContext是SparkSQL的入口 val sc: SparkContext val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext._ //导?入各种sql操作的?口与各种隐式转换 SparkSQL的入口: HiveContext HiveContext是SQLContext的子类,提供了对Hive的支持. complete…

Hadoop MapReduce编程 API入门系列之压缩和计数器（三十）

不多说,直接上代码. Hadoop MapReduce编程 API入门系列之小文件合并(二十九) 生成的结果,作为输入源. 代码 package zhouls.bigdata.myMapReduce.ParseTVDataCompressAndCounter; import java.net.URI; import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Co…