spark LinearRegression 预测缺失字段的值

最近在做金融科技建模的时候，字段里面很多缺少值得时候，模型对于新用户的预测会出现很大的不稳定，即PSI较大的情况。

虽然我们依据字段IV值得大小不断的在调整字段且开发新变量，但是很多IV值很大的字段直接用平均值、或者0代替显然不够合理。

所以，我们在尝试把字段缺失值当作需要预测的值，把该字段不缺失的当作ｙ，用其他字段当作Ｘ，去预测该字段缺失值得值。不同于机器学习的回归和分类预测。

这里的预测结果是一个具体的值，它的范围从负无穷到正无穷都有可能。

　　数据直接读存于Ｈｉｖｅ，代码如下：

import org.apache.spark.sql.{DataFrame, Row, SQLContext, SaveMode}

import org.apache.spark.{SparkConf, SparkContext}

import org.apache.spark.mllib.linalg.{Vector, Vectors}

import org.apache.spark.ml.regression.LinearRegression

import org.apache.spark.mllib.regression.LabeledPoint

import  org.apache.spark.ml.regression.LinearRegressionModel

import org.apache.spark.sql.hive.HiveContext

import org.apache.spark.sql.types.{DoubleType, StringType, StructField, StructType}

import scala.collection.mutable.ArrayBuffer

//  select   corr(cast(p.cnt_addbook_one as double),cast(l.cnt_addbook_one as double))as corrs  from   lkl_card_score.predictcnt_addbook_one20180201  p join lkl_card_score.fieldValuePredictModel3

//l on p.order_id=l.order_src  where l.cnt_addbook_one<>0

//

object predictcnt_addbook_one20180201 {

  def main(args: Array[String]): Unit = {

    val cf = new SparkConf().setAppName("ass").setMaster("local")

    val sc = new SparkContext(cf)

    val sqlContext = new SQLContext(sc)

    val hc = new HiveContext(sc)

    import sqlContext.implicits._

     val data = hc.sql(s"select * from lkl_card_score.fieldValuePredictModel3 where cnt_addbook_one<>0   and cnt_addbook_one%2=1").map {

          row =>

            val arr = new ArrayBuffer[Double]()

            //剔除label、phone字段

            for (i <-  until row.size) {

              if (row.isNullAt(i)) {

                arr += 0.0

              }

              else if (row.get(i).isInstanceOf[Int])

                arr += row.getInt(i).toDouble

              else if (row.get(i).isInstanceOf[Double])

                arr += row.getDouble(i)

              else if (row.get(i).isInstanceOf[Long])

                arr += row.getLong(i).toDouble

              else if (row.get(i).isInstanceOf[String])

                arr += 0.0

            }

            LabeledPoint(row.getLong().toDouble,Vectors.dense(arr.toArray))

        }.toDF("Murder","features")

    // 建立模型，预测谋杀率Murder

    // 设置线性回归参数

      val lr1 = new LinearRegression()

     val lr2 = lr1.setFeaturesCol("features").setLabelCol("Murder").setFitIntercept(true)

    // RegParam：正则化

    val lr3 = lr2.setMaxIter().setRegParam(0.3).setElasticNetParam(0.8)

    // 将训练集合代入模型进行训练

      val lr = lr3

    val lrModel = lr.fit(data)

    // 输出模型全部参数

    lrModel.extractParamMap()

    println(s"Coefficients: ${lrModel.coefficients} Intercept: ${lrModel.intercept}")

    lrModel.write.overwrite().save(s"hdfs://ns1/user/songchunlin/model/predictcnt_addbook_one20180202")

    // 模型进行评价

    val trainingSummary = lrModel.summary

    println(s"numIterations: ${trainingSummary.totalIterations}")

    println(s"objectiveHistory: ${trainingSummary.objectiveHistory.toList}")

    trainingSummary.residuals.show()

    println(s"RMSE: ${trainingSummary.rootMeanSquaredError}")

    println(s"r2: ${trainingSummary.r2}")

    val predict = hc.sql(s"select * from lkl_card_score.fieldValuePredictModel3 where cnt_addbook_one<>0   and cnt_addbook_one%2=0").map {

      row =>

        val arr = new ArrayBuffer[Double]()

        //剔除label、phone字段

        for (i <-  until row.size) {

          if (row.isNullAt(i)) {

            arr += 0.0

          }

          else if (row.get(i).isInstanceOf[Int])

            arr += row.getInt(i).toDouble

          else if (row.get(i).isInstanceOf[Double])

            arr += row.getDouble(i)

          else if (row.get(i).isInstanceOf[Long])

            arr += row.getLong(i).toDouble

          else if (row.get(i).isInstanceOf[String])

            arr += 0.0

        }

        (row.getString(),Vectors.dense(arr.toArray))

    }.toDF("order_src","features")

   val models=LinearRegressionModel.load("hdfs://ns1/user/songchunlin/model/predictcnt_addbook_one20180202")

    val prediction =models.transform(predict)

    //    val predictions = lrModel.transform(vecDF)

    println("输出预测结果")

    val predict_result: DataFrame =prediction.selectExpr("order_src","prediction")

    val pre2=prediction.map(row=>Row(row.get().toString,row.get().toString))

    val schema = StructType(

      List(

        StructField("order_id", StringType, true),

        StructField("cnt_addbook_one", StringType, true)

      )

    )

    val scoreDataFrame = hc.createDataFrame(pre2,schema)

    scoreDataFrame.count()

    scoreDataFrame.write.mode(SaveMode.Overwrite).saveAsTable("lkl_card_score.predictcnt_addbook_one20180202")

//    predict_result.write.mode(SaveMode.Overwrite).saveAsTable("lkl_card_score.fieldValuePredictModel3_prediction20180131")

//    predict_result.foreach(println(_))

//    sc.stop()

  }

}

用模型预测未参加训练的数据，计算预测的数据和真实数据相关性为0.99553818714507836，有很大的价值。

select  corr(cast(l.cnt_addbook_one as double),cast(p.cnt_addbook_one as double)) from    lkl_card_score.predictcnt_addbook_one20180202  l

join lkl_card_score.fieldValuePredictModel3 p  on l.order_id=p.order_src

;

spark LinearRegression 预测缺失字段的值的更多相关文章

Oracle 判断某個字段的值是不是数字
转:https://my.oschina.net/bairrfhoinn/blog/207835 摘要: 壹共有三种方法,分别是使用 to_number().regexp_like() 和 trans ...
Mysql 修改字段默认值
环境:MySQL 5.7.13 问题描述:建表的时候,users_info表的role_id字段没有默认值,后期发现注册的时候,需要提供给用户一个默认角色,也就是给role_id字段一个默认值. 当前 ...
PHP多维数组根据其中一个字段的值排序
平时简单的一维数组或者简单的数组排序这里就不多作介绍,这里主要是针对平时做项目中的可能遇到的情况,根据多维数组中的其中一个排序.用到的php函数是:array_multisort. 思路:获取其中你需 ...
SQL Server2000导出数据时包含主键、字段默认值、描述等信息
时经常用SQL Server2000自带的导出数据向导将数据从一台数据库服务器导出到另一台数据库服务器: 结果数据导出了,但表的主键.字段默认值.描述等信息却未能导出,一直没想出什么方法,今天又尝试了 ...
通过反射得到object[]数组的类型并且的到此类型所有的字段及字段的值
private string T_Account(object[] list) { StringBuilder code = new StringBuilder(); //得到数据类型 Type t ...
向已写好的多行插入sql语句中添加字段和值
#region 添加支款方式--向已写好的多行插入sql语句中添加字段和值 public int A_ZhifuFS(int diqu) { ; string strData = @"SEL ...
sql如何将同个字段不同值打印在一行
group_concat(distinct(img)) group by id通过id分组把img的值打印在一行group_concat()通常和group by一起使用,功能是把某个字段的值打印在一 ...
C# SQLiteDataReader获得数据库指定字段的值
获得数据库指定字段的值,赋给本地变量 (1)如下,获得userinfo数据表里的字段"userid"."orgid", string userid=" ...
mssql查询某个值存在某个表里的哪个字段的值里面
第一步:创建查询某个值存在某个表里的哪个字段的值里面的存储过程 create proc spFind_Column_In_DB ( @type int,--类型:1为文字类型.2为数值类型 )-- ...

随机推荐

Ubuntu 安装 mysql
sudo apt-get install mysql-server sudo apt install mysql-client sudo apt install libmysqlclient-dev
NSURLConnection的Get\Post方法
习惯了用AFNetworking来处理网络请求,这次试试苹果源生控件的处理方式~~ #import "ViewController.h" @interface ViewContro ...
python 中文编码(一)
我在学python的过程中,遇到的第二个问题,就是中文乱码,如今也算勉强入门了,在这里给大家说说我的经验,也算个新人引导吧. 在文章里,我会重点提到一个概念:有来有去. 即数据从哪里来,到哪里 ...
让cpu跑到100%的bat文件
请你新建一个叫“virus.bat”的批处理文件,里面填写上如下三段命令: Echo "welcom to the aqjava's world"Tree /fCall virus ...
工具软件 PYUV打开raw图片
引自:http://blog.csdn.net/lavenderss/article/details/51495648 [pYUV]如何打开YUV/RGB图片 pYUV工具本身使用起来比较简单,但如果 ...
html5的UI框架
http://www.idangero.us/framework7/ http://goratchet.com/ http://cnratchet.com/ http://amazeui.org/ h ...
JTree常用方法
private JTree jtNetDevice;//数组件申明private JScrollPane jspTree;//滚动面板申明 1.初始化 DefaultMutableTreeNo ...
hbase 学习（十五）缓存机制以及可以利用SSD作为存储的BucketCache
下面介绍Hbase的缓存机制: a.HBase在读取时,会以Block为单位进行cache,用来提升读的性能 b.Block可以分类为DataBlock(默认大小64K,存储KV).BloomBloc ...
在 Android studio 中配置Gradle 做到 “根据命令行提示符生成指定versionCode, versionName，指定apk的打包输出路径”
需求: 1. 使用 Android studio ,使用 gradle 进行构建 2. 在实际开发中,我们需要使用jenkins进行打包.就需要配置我们的 gradle 脚本以支持参数化的方式. 3. ...
SQL Server创建远程链接服务器
--使用sp_addlinkedserver增加链接 EXEC sys.sp_addlinkedserver @server='127.0.0.1', --被访问的服务器别名(习惯上直接使用目标服务器 ...

spark LinearRegression 预测缺失字段的值

spark LinearRegression 预测缺失字段的值的更多相关文章

随机推荐

热门专题