Pipeline 为流程,是Spark创建机器学习的一个流程控制的类
下面直接贴出创建的代码,以及整个流程

第一种:

import org.apache.spark.ml.{Pipeline, PipelineModel}
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.feature.{HashingTF, Tokenizer}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.ml.linalg.Vector /**
* Created by xiaopengpeng on 2016/12/20.
*/
class Popeline_ { }
object Popeline_{
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder()
.appName("popeline")
.master("local[*]")
.config("spark.sql.warehouse.dir", "warehouse/dir")
.getOrCreate()
//创建原始数据
val training = spark.createDataFrame(Seq((0L,"a b c d e spark",1.0),
(1L, "b d", 0.0),
(2L, "spark f g h", 1.0),
(3L, "hadoop mapreduce", 0.0)
)).toDF("id","text","label")
//创建分词
val tokenizer = new Tokenizer().setInputCol("text").setOutputCol("words")
//创建hashingTF
val hashingTF = new HashingTF().setNumFeatures().setInputCol(tokenizer.getOutputCol).setOutputCol("features")
//创建模型
val lr = new LogisticRegression().setMaxIter().setRegParam(0.01)
//创建流程
val pipeline = new Pipeline().setStages(Array(tokenizer,hashingTF,lr))
//进行模型训练
val model = pipeline.fit(training)
//把模型存储到磁盘上
model.write.overwrite().save("result/model/popeline")
//把没有训练的模型存储到磁盘上
pipeline.write.overwrite().save("result/unmodel/poeline")
//从磁盘上读取
val sameModel = PipelineModel.load("result/model/popeline")
//创建测试数据
val test = spark.createDataFrame(Seq((4L, "spark i j k"),
(5L, "l m n"),
(6L, "mapreduce spark"),
(7L, "apache hadoop")
)).toDF("id","text")
//测试的输出
model.transform(test).select("id","text","probability","prediction").collect()
.foreach{case Row(id:Long,text:String,prob:Vector,prediction:Double) => println(s"($id,$text) --> prob=$prob, prediction = $prediction")}
spark.stop()
}
}

第二种:

import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.linalg.{Vector, Vectors}
import org.apache.spark.ml.param.ParamMap
import org.apache.spark.sql.{Row, SparkSession} /**
* Created by xiaopengpeng on 2016/12/20.
*/
class Popeline_2 { }
object Popeline_2{
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder()
.appName("流程")
.master("local[*]")
.config("spark.sql.warehouse.dir", "warehouse/dir")
.getOrCreate() val training = spark.createDataFrame(Seq((1.0,Vectors.dense(0.0,1.1,0.1),
(0.0, Vectors.dense(2.0, 1.0, -1.0)),
(0.0, Vectors.dense(2.0, 1.3, 1.0)),
(1.0, Vectors.dense(0.0, 1.2, -0.5))
))).toDF("label","features") val lr = new LogisticRegression()
println("LogisticRegression parameters:\n"+lr.explainParams()+"\n") lr.setMaxIter().setRegParam(0.01)
val model1 = lr.fit(training)
println("Model 1 was fit using parameters: "+model1.parent.extractParamMap())
val paramMap = ParamMap(lr.maxIter -> )
.put(lr.maxIter -> )//这个会覆盖上一个
.put(lr.regParam -> 0.1 ,lr.threshold -> 0.55) val paramMap2 = ParamMap(lr.probabilityCol -> "myProbability") //改变输出列名
val paramMapCombined = paramMap++paramMap2
val model2 = lr.fit(training,paramMapCombined)
println("Model 2 was fit using parameters: "+model2.parent.extractParamMap) val test = spark.createDataFrame(Seq((1.0,Vectors.dense(-1.0,1.5,1.3)),
(0.0, Vectors.dense(3.0, 2.0, -0.1)),
(1.0, Vectors.dense(0.0, 2.2, -1.5))
)).toDF("label","features") model2.transform(test)
.select("features","label","myProbability","prediction")
.collect()
.foreach{case Row(features:Vector,lable:Double,prob:Vector,prediction:Double) => println(s"($features,$lable) ->prob=$prob,prediction=$prediction")} }
}

spark2.1.1创建Pipeline的更多相关文章

  1. jenkins创建pipeline

    新建任务的时候,有两个流水线相关的任务类型,如下图.其中:流水线更加针对单主干模式的开发,在主干目录下放一个Jenkinsfile文件,其中该文件保存了从SCM拉代码.构建.测试.发布等等流程. 而M ...

  2. 试用Jenkins 2 的 Pipeline 项目

    目前Jenkins最新的版本是2.7,现在试用一下pipeline类型的项目,本来想构建一个1.651版本的Jenkins为例,无奈大陆的网络 访问github不稳定,只好改为简单的工程. 目前有一个 ...

  3. jenkins2 hello pipeline

    文章来自:http://www.ciandcd.com 文中的代码来自可以从github下载: https://github.com/ciandcd   根据前面的2篇文章,我们已经安装和配置好了je ...

  4. 在容器中运行 Jenkins pipeline 任务

    持续集成中的 pipeline 技术和 docker 都是当前正在发展的主流方向,当然把它们结合起来在 CI/CD 过程中发挥出更强大的威力也是大家共同的目标.本文将介绍如何在 Jenkins pip ...

  5. Jenkins高级用法 - Pipeline 安装

    一.总体介绍 总体介绍内容摘自 玩转Jenkins Pipeline(大宝鱼) 1.核心概念 Pipeline,简而言之,就是一套运行于Jenkins上的工作流框架,将原本独立运行于单个或者多个节点的 ...

  6. [转]利用Jenkins的Pipeline实现集群自动化部署SpringBoot项目

    环境准备 Git: 安装部署使用略. Jenkins: 2.46.2版本安装部署略(修改jenkins执行用户为root,省得配置权限) JDK: 安装部署略. Maven: 安装部署略. 服务器免密 ...

  7. Python Redis pipeline操作

    Redis是建立在TCP协议基础上的CS架构,客户端client对redis server采取请求响应的方式交互. 一般来说客户端从提交请求到得到服务器相应,需要传送两个tcp报文. 设想这样的一个场 ...

  8. pipeline

    执行顺序:pipeline 写 pipeline类class Scrapyproject1Pipeline(object): def process_item(self, item, spider): ...

  9. Netty 核心组件 Pipeline 源码分析(一)之剖析 pipeline 三巨头

    目录大纲: 前言 ChannelPipeline | ChannelHandler | ChannelHandlerContext 三巨头介绍 三巨头编织过程(创建过程) ChannelPipelin ...

随机推荐

  1. android 开发者资源下载地址记录(转+补充)

    https如果无法下载的话将下面的:https://dl-ssl 部分改为 http://dl (1)Android SDK (Android SDK主安装包,包含SDK Manager.AVD Ma ...

  2. oracle最精简客户端(3个文件+1个path变量就搞定oracle客户端)

    oracle最精简客户端: network\admin\tnsnames.ora (自己新建)oci.dlloraocieill.dll 将oci.dll的路径加到path变量中就可以了 tnsnam ...

  3. ros-indigo-desktop-full安装到ubuntu14.04

    一.安装ros(原创博文,转载请标明出处-周学伟http://www.cnblogs.com/zxouxuewei/) 1.配置ubuntu的软件仓库.(可以不用进行配置). 配置你的 Ubuntu ...

  4. c# T obj = default(T);

    泛型类和泛型方法同时具备可重用性.类型安全和效率,这是非泛型类和非泛型方法无法具备的.泛型通常用在集合和在集合上运行的方法中..NET Framework 2.0 版类库提供一个新的命名空间 Syst ...

  5. 《C++ Primer Plus》12.7 队列模拟 学习笔记

    Heather银行打算在Food Heap超市开设一个自动柜员机(ATM).Food Heap超市的管理者担心排队使用ATM的人流会干扰超市的交通,希望限制排队等待的人数.Heather银行希望对顾客 ...

  6. 安装安全狗后,MP4无法播放

  7. npm更新到最新版本

    命令行运行: npm install -g npm

  8. 2800 送外卖[状态压缩dp]

    2800 送外卖  时间限制: 2 s  空间限制: 256000 KB  题目等级 : 钻石 Diamond 题解       题目描述 Description 有一个送外卖的,他手上有n份订单,他 ...

  9. 安装php环境xampp

    1.下载xampp 安装 2.如果启动时发生端口占用错误, 是443和80端口被占用, 可以改成444,88端口, 在C:\xampp\apache\conf\extra\httpd-ssl.conf ...

  10. Egret打包App Android热更新(4.1.0)

    官网教程:http://developer.egret.com/cn/github/egret-docs/Native/native/hotUpdate/index.html 详细可看官网教程,我这里 ...