Spark线性回归实现优化

 import org.apache.log4j.{Level, Logger}

 import org.apache.spark.ml.feature.VectorAssembler

 import org.apache.spark.ml.regression.LinearRegression

 import org.apache.spark.sql.SparkSession

 /**

   * 线性回归

   * Created by zhen on 2018/11/12.

   */

 object LinearRegression {

   Logger.getLogger("org").setLevel(Level.WARN) // 设置日志级别

   def main(args: Array[String]) {

     val spark = SparkSession

       .builder()

       .appName("LinearRegression")

       .master("local[2]")

       .getOrCreate()

     val train_data = spark.sparkContext.textFile("E:/BDS/newsparkml/src/train.txt") // 加载数据

     val train_map_data = train_data.map{ row =>

         val split = row.split(",")

         (split(0).toDouble,split(1).toDouble,split(2).toDouble,split(3).toDouble,

           split(4).toDouble,split(5).toDouble,split(6).toDouble,split(7).toDouble)

       }

     val df = spark.sqlContext.createDataFrame(train_map_data)

     val colArray = Array("Population","Income","Illiteracy","LifeExp","HSGrad","Frost","Area")

     val train_df = df.toDF(colArray(0),colArray(1),colArray(2),colArray(3),"Murder",colArray(4),colArray(5),colArray(6))

     val assembler = new VectorAssembler()

       .setInputCols(colArray)

       .setOutputCol("features")

     val vectDF = assembler.transform(train_df)

     val weights = Array(0.8,0.2) //设置训练集和测试集的比例

     val split_data = vectDF.randomSplit(weights) // 拆分训练集和测试集

     // 创建模型对象

     val linearRegression = new LinearRegression()

       .setFeaturesCol("features")

       .setLabelCol("Murder")

       .setFitIntercept(true)

       .setMaxIter(10)

       .setRegParam(0.3)// 正则化

       .setElasticNetParam(0.8)

     // 训练模型

     val lrModel = linearRegression.fit(split_data(0))

     // 查看模型参数

     //lrModel.extractParamMap()

     println(s"Cofficients:${lrModel.coefficients} Intercept:${lrModel.intercept}")

     //模型评估

     val trainingSummary = lrModel.summary

     println(s"objectiveHistoryList:${trainingSummary.objectiveHistory.toList}")

     println(s"r2:${trainingSummary.r2}")

     // 预测

     val predictions = lrModel.transform(split_data(1))

     val predict_result = predictions.selectExpr("features","Murder","round(prediction,1) as prediction") // 保存一位小数

     println("训练集数据------------------------------真实值--预测值")

     predict_result.foreach(println(_))

   }

 }

结果：

Spark线性回归实现优化的更多相关文章

Spark读Hbase优化 --手动划分region提高并行数
一. Hbase的region 我们先简单介绍下Hbase的架构和Hbase的region: 从物理集群的角度看,Hbase集群中,由一个Hmaster管理多个HRegionServer,其中每个HR ...
[转] - Spark排错与优化
Spark排错与优化 http://blog.csdn.net/lsshlsw/article/details/49155087 一. 运维 1. Master挂掉,standby重启也失效 Mast ...
SparkSQL的一些用法建议和Spark的性能优化
1.写在前面 Spark是专为大规模数据处理而设计的快速通用的计算引擎,在计算能力上优于MapReduce,被誉为第二代大数据计算框架引擎.Spark采用的是内存计算方式.Spark的四大核心是Spa ...
spark 集群优化
只有满怀自信的人,能在任何地方都怀有自信,沉浸在生活中,并认识自己的意志. 前言最近公司有一个生产的小集群,专门用于运行spark作业.但是偶尔会因为nn或dn压力过大而导致作业checkpoint ...
Spark排错与优化
一. 运维 1. Master挂掉,standby重启也失效 Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成 ...
spark新能优化之序列化
概叙: 在任何分布式系统中,序列化都是扮演着一个重要的角色的.如果使用的序列化技术,在执行序列化操作的时候很慢,或者是序列化后的数据还是很大,那么会让分布式应用程序的性能下降很多.所以,进行Spark ...
[看图说话] 基于Spark UI性能优化与调试——初级篇
Spark有几种部署的模式,单机版.集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试.但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式,进行分析 ...
[Spark] - SparkCore程序优化总结
http://spark.apache.org/docs/1.6.1/tuning.html1) 代码优化 a. 对于多次使用的RDD,进行数据持久化操作(eg: cache.persist) b. ...
spark 线性回归算法（scala）
构建Maven项目,托管jar包数据格式 //0.fp_nid,1.nsr_id,2.gf_id,2.hydm,3.djzclx_dm,4.kydjrq,5.xgrq,6.je,7.se,8.jsh ...

随机推荐

Hbase shell基本操作
1.启动cd <hbase_home>/bin$ ./start-hbase.sh 2.启动hbase shell # find hadoop-hbase dfs fileshadoop ...
Http请求-get和post的区别
GET和POST是HTTP请求的两种基本方法. 最直观的区别就是GET把参数包含在URL中,以?的方式来进行拼接,POST通过request body传递参数.并且GET请求在URL中传送的参数是有长 ...
Java程序员如何运用所掌握的技术构建一个完整的业务架构
1.通用架构概述创业之初,我们往往会为了快速迭代出产品,而选择最简单的技术架构,比如LAMP架构,SSH三层架构.这些架构可以适应初期业务的快速发展,但是,随着业务变得越来越复杂,我们会发现这些架构 ...
Create and Embed an Application Manifest (UAC)
http://msdn.microsoft.com/en-us/library/bb756929.aspx 可以在VS2008中设置当执行exe时弹出提升管理员权限对话框:xx Property-&g ...
模板引擎之-jade
##### 首先我们安装jade模板引擎并编译`npm install jade --global`在项目文件夹下创建一个`index.jade`文件,并且写入```doctypehtml head ...
Oracle的数据并发与一致性详解（下）
上篇介绍了数据并发与一致性的相关概念.以及oracle的事务隔离级别等内容,本篇继续介绍锁机制.自动锁.手动锁.用户自定义锁的相关内容. 请尊重作者劳动成果,转载请标明原文链接: https://ww ...
分布式锁之redisson
redisson是redis官网推荐的java语言实现分布式锁的项目.当然,redisson远不止分布式锁,还包括其他一些分布式结构.详情请移步:https://github.com/mrniko/r ...
Asp.net Webform 使用Repository模式实现CRUD操作代码生成工具
Asp.net Webform 使用Repository模式实现CRUD操作代码生成工具介绍该工具是通过一个github上的开源项目修改的原始作者https://github.com/Supere ...
input框限制只能输入正整数、字母、小数、汉字
有时需要限制文本框输入内容的类型,本节分享下正则表达式限制文本框只能输入数字.小数点.英文字母.汉字等代码. 例如,输入大于0的正整数代码如下: <input onkeyup="if ...
操作Linux系统环境变量的几种方法
一.使用environ指针输出环境变量代码如下: #include<stdio.h> #include<string.h> #define MAX_INPUT 20 /* 引 ...

Spark线性回归实现优化

Spark线性回归实现优化的更多相关文章

随机推荐

热门专题