Spark LR逻辑回归中RDD转DF中VectorUDT设置

  System.setProperty("hadoop.home.dir", "C:\\hadoop-2.7.2");

  val spark = SparkSession.builder().config(new SparkConf().setAppName("LR").setMaster("local[*]")).config("spark.sql.warehouse.dir", "file:///").getOrCreate()

  val sc = spark.sparkContext

  val rdd = sc.textFile("C:\\Users\\Daxin\\Documents\\GitHub\\OptimizedRF\\sql_data\\LRDATA")

  val schemaString = "label features"

  //  val fields = schemaString.split(" ").map(StructField(_, StringType, true))

  //  org.apache.spark.ml.linalg.SQLDataTypes.VectorType替换org.apache.spark.ml.linalg.VectorUDT(一个spark包私有的类型)

  val fields = Array(StructField("label", DoubleType, true), StructField("features", org.apache.spark.ml.linalg.SQLDataTypes.VectorType, true))

  val rowRdd = rdd.map {

    x =>

      Row(x.split(",")(1).toDouble, Vectors.dense(Array[Double](x.split(",")(0).toDouble)))

  }

  val schema = StructType(fields)

  val Array(train, test) = spark.createDataFrame(rowRdd, schema).randomSplit(Array[Double](0.6, 0.4))

  val lr = new LinearRegression()

    .setMaxIter(100)

    .setRegParam(0.3)

    .setElasticNetParam(0.8) //.setTol(0.01) // 收敛阈值

  val lrModel = lr.fit(train)

  println(lrModel.transform(test).columns.toBuffer)

  lrModel.transform(test).select("label", "prediction").show()

  println(s"Coefficients: ${lrModel.coefficients} Intercept: ${lrModel.intercept}")

Spark LR逻辑回归中RDD转DF中VectorUDT设置的更多相关文章

Spark LogisticRegression 逻辑回归之建模
导入包 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.Dataset import org.apache.s ...
Python实现LR(逻辑回归)
Python实现LR(逻辑回归) 运行环境 Pyhton3 numpy(科学计算包) matplotlib(画图所需,不画图可不必) 计算过程 st=>start: 开始 e=>end o ...
Spark 多项式逻辑回归__多分类
package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.{B ...
Spark 多项式逻辑回归__二分类
package Spark_MLlib import org.apache.spark.ml.Pipeline import org.apache.spark.ml.classification.{L ...
Spark Mllib逻辑回归算法分析
原创文章,转载请注明: 转载自http://www.cnblogs.com/tovin/p/3816289.html 本文以spark 1.0.0版本MLlib算法为准进行分析一.代码结构逻辑回归 ...
Spark ML逻辑回归
import org.apache.log4j.{Level, Logger} import org.apache.spark.ml.classification.LogisticRegression ...
Spark 机器学习------逻辑回归
package Spark_MLlib import javassist.bytecode.SignatureAttribute.ArrayType import org.apache.spark.s ...
含有分类变量（categorical variable）的逻辑回归（logistic regression）中虚拟变量（哑变量，dummy variable）的理解
版权声明:本文为博主原创文章,博客地址:,欢迎大家相互转载交流. 使用R语言做逻辑回归的时候,当自变量中有分类变量(大于两个)的时候,对于回归模型的结果有一点困惑,搜索相关知识发现不少人也有相同的疑问 ...
LR逻辑回归文章
http://blog.csdn.net/suipingsp/article/details/41822313

随机推荐

基于xlua和mvvm的unity框架
1.框架简介这两天在Github上发现了xlua的作者车雄生前辈开源的一个框架—XUUI,于是下载下来学习了一下.XUUI基于xlua,又借鉴了mvvm的设计概念.xlua是目前很火的unity热更 ...
深入浅出 JVM GC（1）
# 前言初级 Java 程序员步入中级程序员的有一个无法绕过的阶段------GC(Garbage Collection).作为 Java 程序员,说实话,很幸福,不用像 C 程序员那样,时刻关心着 ...
IdentityServer4 中文文档 -4- （简介）打包和构建
IdentityServer4 中文文档 -4- (简介)打包和构建原文:http://docs.identityserver.io/en/release/intro/packaging.html ...
win10 uwp 渲染原理 DirectComposition 渲染
本文来告诉大家一个新的技术DirectComposition,在 win7 之后(实际上是 vista),微软正在考虑一个新的渲染机制在 Windows Vista 就引入了一个服务,桌面窗口管理器 ...
SQL SERVER GO命令循环使用实例
通过GO 命令来达到语句循环效果也叫批循环 print '输出10次' 也可用来新增语句 NOCOUNT ON 用来屏蔽新增语句输出的影响行数我们只看循环次数 SET NOCOUNT O ...
vb.net 发Mail
Private Sub A1() '创建发件连接,根据你的发送邮箱的SMTP设置填充 Dim a As System.Net.Mail.Attachment Dim smtp As New Syste ...
elasticsearch6.7 05. Document APIs（7）Update By Query API
6.Update By Query API _update_by_query 接口可以在不改变 source 的情况下对 index 中的每个文档进行更新.这对于获取新属性或其他联机映射更改很有用.以 ...
Django Rest Framework之认证
代码基本结构 url.py: from django.conf.urls import url, include from web.views.s1_api import TestView urlpa ...
从函数式编程到Promise
译者按: 近年来,函数式语言的特性都被其它语言学过去了.JavaScript异步编程中大显神通的Promise,其实源自于函数式编程的Monad! 原文: Functional Computation ...
【CSS学习】--- overflow属性
一.前言在网页布局中,未处理的溢出元素绝对算得上是个“毒瘤”.因为如果一个“盒子”周围还有其它元素,而从这个盒子中溢出的元素会和盒子周围的元素发生层叠,并脱离了整个HTML元素,所以我们应当合理使用 ...

Spark LR逻辑回归中RDD转DF中VectorUDT设置

Spark LR逻辑回归中RDD转DF中VectorUDT设置的更多相关文章

随机推荐

热门专题