Spark2 ML 学习札记

摘要：
　　1.pipeline 模式

　　　　1.1相关概念

　　　　1.2代码示例
　　2.特征提取，转换以及特征选择

　　　　2.1特征提取

　　　　2.2特征转换

　　　　2.3特征选择

　　3.模型选择与参数选择

　　　　3.1 交叉验证

　　　　3.2 训练集-测试集切分

　　4.spark新增SparkSession与DataSet

内容：

1.pipeline 模式

　　1.1相关概念

　　　　DataFrame是来自Spark SQL的ML DataSet 可以存储一系列的数据类型，text,特征向量，Label和预测结果

　　　　Transformer:将DataFrame转化为另外一个DataFrame的算法，通过实现transform()方法
　　　　Estimator：将DataFrame转化为一个Transformer的算法，通过实现fit()方法

　　　　PipeLine:将多个Transformer和Estimator串成一个特定的ML Wolkflow

　　　　Parameter:Tansformer和Estimator共用同一个声明参数的API

　　　　上图中蓝色标识的是Transformer(Tokenizer and HashingTF)，红色标识的是Estimator(LogisticRegression)

　　1.2代码示例　　　

val tokenizer = new Tokenizer()

  .setInputCol("text")

  .setOutputCol("words")

val hashingTF = new HashingTF()

  .setNumFeatures(1000)

  .setInputCol(tokenizer.getOutputCol)

  .setOutputCol("features")

val lr = new LogisticRegression()

  .setMaxIter(10)

  .setRegParam(0.01)

val pipeline = new Pipeline()

  .setStages(Array(tokenizer, hashingTF, lr))

// Fit the pipeline to training documents.

val model = pipeline.fit(training)

// Make predictions on test documents.

model.transform(test)

  .select("id", "text", "probability", "prediction")

  .collect()

  .foreach { case Row(id: Long, text: String, prob: Vector, prediction: Double) =>

    println(s"($id, $text) --> prob=$prob, prediction=$prediction")

  }

2.特征提取，转换以及特征选择

　　2.1特征提取　

- TF-IDF：提取文档的关键词
- Word2Vec：将文档转换成词向量
- CountVectorizer：向量值计数

　　2.2特征转换

- Tokenizer：分词器
- StopWordsRemover：停词表　　注：The list of stopwords is specified by the stopWords parameter. Default stop words for some languages are accessible by calling StopWordsRemover.loadDefaultStopWords(language)
- n-gram
- Binarizer
- PCA：主成分分析，一种降维方法，可以提取出区分度比较高的特征，并计算权重
- PolynomialExpansion：多项式核转换
- Discrete Cosine Transform (DCT)
- StringIndexer
- IndexToString
- OneHotEncoder：独热编码
- VectorIndexer
- -----------------------------------------------------------------标准化和归一化-------------------------------------------------------------------------------------
- Normalizer：向量正则化处理，参见http://www.cnblogs.com/arachis/p/Regulazation.html
- StandardScaler：标准化方法1：( x-mean ) / standard deviation
- MinMaxScaler：标准化方法2:
- MaxAbsScaler 标准化方法3: x / abs(max)
- ----------------------------------------------------------------离散化-----------------------------------------------------------------------------------------------
- Bucketizer：分区，可指定分区的上下界
- QuantileDiscretizer：等宽离散化
- ----------------------------------------------------------------交叉特征---------------------------------------------------------------------------------------------
- ElementwiseProduct
- ----------------------------------------------------------------SQL-------------------------------------------------------------------------------------------------
- SQLTransformer
- VectorAssembler

　　2.3特征选择　

VectorSlicer:截取指定的特征，可以是索引，也可以是特征标识
RFormula：RFormula用于将数据中的字段通过R语言的Model Formulae转换成特征值，输出结果为一个特征向量和Double类型的label。R文档
ChiSqSelector：ChiSqSelector用于使用卡方检验来选择特征（降维）。

3.模型选择与参数选择

　　　　3.1 交叉验证

　　　　　　将数据分为K分，每次测评选取一份作为测试集，其余为训练集；

　　　　3.2 训练集-测试集切分

　　　　　　根据固定的比例将数据分为测试集和训练集

代码示例：　　　　

val cv = new CrossValidator()

  .setEstimator(pipeline)

  .setEvaluator(new BinaryClassificationEvaluator)

  .setEstimatorParamMaps(paramGrid)

  .setNumFolds(2)  // Use 3+ in practice

4.spark新增SparkSession与DataSet

http://blog.csdn.net/yhao2014/article/details/52215966

http://blog.csdn.net/u013063153/article/details/54615378
http://blog.csdn.net/lsshlsw/article/details/52489503

Spark2 ML 学习札记的更多相关文章

BITED-Windows8应用开发学习札记之二：Win8应用常用视图设计
感觉自我表述能力有欠缺,技术也不够硬,所以之后的Windows8应用开发学习札记的文章就偏向于一些我认为较难的地方和重点了多有抱歉. 上节课是入门,这节课就已经开始进行视图设计了. Windows应用 ...
SQL菜鸟学习札记（一）
刚开始学SQL,从最基础的语句开始写,用一个LOL数据库做实验.目前使用的工具是MySQL Workbench,感觉比较顺手,界面没花多久时间就读懂的差不多了,所以目前就使用这个工具来做SQL的学习了 ...
java学习札记
java学习札记 0x0 学习原因本来打算大三再去跟着课程去学习java的,但是现在题目越来越偏向java,所以迫于无奈开启了java的学习篇章,同时也正好写个笔记总结下自己学习一门语言的流程. ...
Masonry学习札记
Masnory学习札记在之前的文章里有草草提到过Masonry自动布局,可这么重要第三方布局框架的怎么可以怎么随便带过呢!昨天在完成页面的时候刚好遇到了被Masorny功能惊叹的部分,所以趁热打铁写 ...
Java 学习札记（三）免安装版TomCat中tomcat6w.exe的运行
1.使用环境很多时候我们用的是官网的解压免安装版的Tomcat,相比安装Tomcat除了少了安装步骤以外还少了tomcat6w.exe运行所需要的环境变量,所以一般Java开发免安装版的已经足够使用 ...
[ML学习笔记] XGBoost算法
[ML学习笔记] XGBoost算法回归树决策树可用于分类和回归,分类的结果是离散值(类别),回归的结果是连续值(数值),但本质都是特征(feature)到结果/标签(label)之间的映射. 这 ...
[ML学习笔记] 朴素贝叶斯算法（Naive Bayesian)
[ML学习笔记] 朴素贝叶斯算法(Naive Bayesian) 贝叶斯公式 \[P(A\mid B) = \frac{P(B\mid A)P(A)}{P(B)}\] 我们把P(A)称为"先 ...
[ML学习笔记] 决策树与随机森林（Decision Tree&Random Forest）
[ML学习笔记] 决策树与随机森林(Decision Tree&Random Forest) 决策树决策树算法以树状结构表示数据分类的结果.每个决策点实现一个具有离散输出的测试函数,记为分支 ...
[ML学习笔记] 回归分析（Regression Analysis）
[ML学习笔记] 回归分析(Regression Analysis) 回归分析:在一系列已知自变量与因变量之间相关关系的基础上,建立变量之间的回归方程,把回归方程作为算法模型,实现对新自变量得出因变量 ...

随机推荐

Fis3的前端工程化之路[三大特性篇之内容嵌入]
Fis3版本:v3.4.22 Fis3的三大特性资源定位:获取任何开发中所使用资源的线上路径内容嵌入:把一个文件的内容(文本)或者base64编码(图片)嵌入到另一个文件中依赖声明:在一个文本文 ...
阿里云直播 C# SDK 如何使用
阿里云直播SDK的坑 1.直播云没有单独的SDK,直播部分被封装在CDN的相关SDK当中. 2.针对SDK,没有相关Demo. 3.针对SDK,没有相关的文档说明. 4.针对SDK的说明,官网上的说明 ...
Connect() 2016 大会的主题 ---微软大法好
文章首发于微信公众号"dotnet跨平台",欢迎关注,可以扫页面左面的二维码. 今年 Connect 大会的主题是 Big possibilities. Bold technolo ...
我们是怎么做Code Review的
前几天看了<Code Review 程序员的寄望与哀伤>,想到我们团队开展Code Review也有2年了,结果还算比较满意,有些经验应该可以和大家一起分享.探讨.我们为什么要推行Code ...
C语言 · 时间转换
问题描述给定一个以秒为单位的时间t,要求用"<H>:<M>:<S>"的格式来表示这个时间.<H>表示时间,<M>表示分 ...
.Net多线程编程—预备知识
1 基本概念共享内存的多核架构:一个单独的封装包内封装了多个互相连接的未处理器,且所有内核都可以访问主内存.共享内存的多核系统的一些微架构,例如内核暂停功能,超频. 内核暂停功能:当使用内核不多的时 ...
Android 剪贴板详解
版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰源码:AndroidDemo/Clipboard 如本文有助于你理解 Android 剪贴板,不妨给我一个 Star.对于码农而言, ...
Javacript实现字典结构
字典是一种用[键,值]形式存储元素的数据结构.也称作映射,ECMAScript6中,原生用Map实现了字典结构. 下面代码是尝试用JS的Object对象来模拟实现一个字典结构. <script& ...
文档对象模型DOM通俗讲解
转自:http://www.jb51.net/article/42671.htm 在开始之前先说一点,DOM是非常容易理解的,但是大家说的太官方,让人很是难于理解,我们就用非常简单的语言翻译一遍.加深 ...
AFN解析器里的坑
AFN框架是用来用来发送网络请求的,它的好处是可以自动给你解析JSON数据,还可以发送带参数的请求AFN框架还可以监测当前的网络状态,还支持HTTPS请求,分别对用的类为AFNetworkReacha ...

Spark2 ML 学习札记

Spark2 ML 学习札记的更多相关文章

随机推荐

热门专题