lakala proportion轨迹分析代码

/**

  * Created by lkl on 2017/12/7.

  */

import breeze.numerics.abs

import org.apache.spark.sql.SQLContext

import org.apache.spark.mllib.regression.LabeledPoint

import org.apache.spark.SparkContext

import org.apache.spark.SparkConf

import org.apache.spark.mllib.linalg.Vectors

import org.apache.spark.mllib.tree.RandomForest

import org.apache.spark.mllib.tree.model.RandomForestModel

object proportion {

  def main(args: Array[String]): Unit = {

    val cf = new SparkConf().setAppName("ass").setMaster("local")

    val sc = new SparkContext(cf)

    val sqlContext = new SQLContext(sc)

    val File1 = sc.textFile("20171117PP.txt").filter(_.contains("OK")).map(_.replace(",0],","a[").split("a").last).map(_.replace("OK", "")).map(_.replace("FAIL", "")).map(line => (line.split(";").last.toDouble, line.split(";").head))

    File1.saveAsTextFile("")

    val File2=sc.textFile("20171117PP.txt").filter(_.contains("FAIL")).map(_.replace(",0],","a[").split("a").last).map(_.replace("OK", "")).map(_.replace("FAIL", "")).map(line => (line.split(";").last.toDouble, line.split(";").head))

    val b=File2.randomSplit(Array(0.1, 0.9))

    val (strainingDatas, stestDatas) = (b(), b())

    val File=File1 union(strainingDatas)

    val ass = File.map { p => {

      var str = ""

      val l = p._1

      val a = p._2.substring(, p._2.length - )

      val b = a.replace("],[", "a")

      val c = b.split("a")

      for (arr <- c) {

        val index1 = arr.split(",")().toInt + ","

        val index2 = arr.split(",")().toInt + ","

        val index3 = arr.split(",")().toInt + " "

        val index = index1 + index2 + index3

        str += index

      }

      (l, str.substring(, str.length - ))

    }

    }

    val rdd = ass.map( p => {

      val l=p._1

      val rowall =new Array[Double]()

      val arr = p._2.split(" ")

      var map:Map[Int,List[Double]] = Map()

      var vlist:List[Double] = List()

      for(a <- arr){

        val x = a.split(",")().toInt

        val y =  a.split(",")().toInt+

        val t = a.split(",")().toInt

        val index = (x*)+(y+)

        val v = t

        vlist = v :: map.get(index).getOrElse(List())

        map += (index -> vlist)

      }

      map.foreach(p => {

        val k = p._1

        val v = p._2

        val sv = v.toSet.size

        val rv = sv.toDouble/v.size.toDouble

        val tmp =f"$rv%1.2f".toDouble

        rowall(k) = tmp

      })

      (l,rowall)

    })

    val usersList = rdd.map(p => {

      LabeledPoint(p._1.toDouble, Vectors.dense(p._2.toArray))

    })

    val splits = usersList.randomSplit(Array(, ))

    val (trainingData, testData) = (splits(), splits())

    // 随机森林训练参数设置

    //分类数

    val numClasses =

    // categoricalFeaturesInfo 为空，意味着所有的特征为连续型变量

    val categoricalFeaturesInfo = Map[Int, Int]()

    //树的个数

    val numTrees =

    //特征子集采样策略，auto 表示算法自主选取

    val featureSubsetStrategy = "auto"

    //纯度计算

    val impurity = "gini"

    //树的最大层次

    val maxDepth =

    //特征最大装箱数

    val maxBins =

    //训练随机森林分类器，trainClassifier 返回的是 RandomForestModel 对象

    val model = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo,

      numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)

    val labelAndPreds = testData.map { point =>

      val prediction = model.predict(point.features)

      (point.label, prediction)

    }

//    import sqlContext.implicits._

//    val ss = labelAndPreds.toDF("a", "b").registerTempTable("people")

//    val teenagers = sqlContext.sql("SELECT count(1) FROM people WHERE a-b=0")

//    teenagers.collect()

    val testErr = labelAndPreds.filter(r => r._1 != r._2).count.toDouble / testData.count()

    val accurate =  - testErr.toDouble

    println("Test Error = " + accurate)

    println("Learned classification forest model:\n" + model.toDebugString)

    // 将训练后的随机森林模型持久化

    model.save(sc, "myModelPath23")

    //加载随机森林模型到内存

    val sameModel = RandomForestModel.load(sc, "myModelPath")

  }

  }

lakala proportion轨迹分析代码的更多相关文章

分析代码的利器 - ctags
比方我们在分析代码的时候,须要看某一个方法或类的定义,我们须要临时跳转过去看一下,然后还能非常方便的回来.这时候ctags就派上用场了. 比方你有一个src目录,先用ctags对其生成索引: ctag ...
Javascript 缓冲运动——逐行分析代码，让你轻松了解缓冲运动的原理
看过上一篇关于Javascript 匀速运动文章的朋友相信对于运动已经有了初步的了解接下来讲一下关于缓冲运动的原理 ,我会逐行分析代码,代码简单易懂,能马上理解其中的原理,适用于初学者. #div ...
基于byte[]的HTTP协议头分析代码
smark 专注于高并发网络和大型网站架规划设计,提供.NET平台下高吞吐的网络通讯应用技术咨询和支持基于byte[]的HTTP协议头分析代码最近需要为组件实现一个HTTP的扩展包,所以简单地实现 ...
测试框架：使用SONAR分析代码质量
介绍 Sonar是一个用于代码质量管理的开源平台,用于管理Java源代码的质量.通过插件机制,Sonar 可以集成不同的测试工具,代码分析工具,以及持续集成工具,比如pmd-cpd.checkstyl ...
Fortify SCA 分析代码漏洞全解
上次介绍了用FindBugs辅助分析代码漏洞.这次换了一个工具:Fortify SCA Demo 4.0.0.Fortify是一个在安全方面挺出名的公司,这里就不多说了.先介绍一下主角:Fortify ...
CVE-2019-11477：Linux 内核中TCP协议栈整数溢出漏洞详细分析代码卫士今天
CVE-2019-11477:Linux 内核中TCP协议栈整数溢出漏洞详细分析代码卫士今天
10分钟进阶SpringBoot - 05. 数据访问之JDBC（附加源码分析+代码下载）
10分钟进阶SpringBoot - 05. 数据访问之JDBC 代码下载:https://github.com/Jackson0714/study-spring-boot.git 一.JDBC是什么 ...
C# - 习题03_分析代码写出结果A.X、B.Y
时间:2017-08-23 整理:byzqy 题目:分析代码,写出程序的输出结果: 文件:Program.cs 1 using System; 2 3 namespace Interview2 4 { ...
Xcode静态检查分析代码
Clang静态分析和Instruments来剖析代码有一些不同,Clang更致力于在编译的过程中通过自身的一套判断机制来找出代码中潜在的隐患. 在XCode 3.2之后的版本里,Clang已经被集 ...

随机推荐

Windows系统盘瘦身指南
[本文出自天外归云的博客园] Windows系统的C盘空间越来越小,按以下四步进行清理,还你6个G: 1.开启腾讯管家之类的软件进行第一轮垃圾清理: 2.删除以下文件夹,"C:\Progra ...
百度BAE使用ueditor 上传图片
研究BAE 也有一段时间了,但一直无法解决BAE 上传图片的问题. 在阅读了 http://blog.csdn.net/auver/article/details/10103789 和 http:// ...
Eigen教程(2)
整理下Eigen库的教程,参考:http://eigen.tuxfamily.org/dox/index.html Matrix类在Eigen,所有的矩阵和向量都是Matrix模板类的对象,Vect ...
HTTP Status 500 PWC6188 jsp/jstl/core cannot be resolved in either web.xml or the jar files deployed with this application
报错如下: 解决方案: 1.可能是依赖引用错了,注意 JSP 应依赖:  <dependency> <groupId>javax.servl ...
mongo 操作小结
这里总结一下mongo常用操作语句,分享给大家和我自己~ 打印系统,数据库,集合的信息 db.stats() 打印数据库状态 db ...
where子查询
限定查询(WHERE子句) 之前的查询是将一张表的全部记录查询出来,那么现在如果希望可以根据指定的条件查询的话,则必须指定限定查询. 格式: 的雇员的信息 l 使用“<>”完成 l S ...
Android View.MeasureSpec
有时,Android系统控件无法满足我们的需求,因此有必要自定义View. 一般来说,自定义控件都会去重写View的onMeasure方法,因为该方法指定该控件在屏幕上的大小,[protected v ...
微软开放了.NET 4.5.1的源代码
您目前处于: InfoQ首页新闻微软开放了.NET 4.5.1的源代码微软开放了.NET 4.5.1的源代码作者姚琪琳发布于二月 26, 2014 | 1 讨论新浪微博腾讯微博豆瓣 ...
IIS 7上部署PHP【后续一】
在之前成功在windows 2008+iis7环境下部署php的基础上,今天把之前的挂Q网站转移到了这个服务器下. 文件拷贝到服务器后,问题继续出现. 首先出现的问题是,Mysql的数据库名称和账户密 ...
python django查询12306火车票
逢年过节,想坐个高铁票,都得上12306去买票,但用过的都会发现,它会把临近站点的也筛出来了.但有时我们压根就不会考虑买到临近站点的. 另一方面,在购票高峰期,有可能你要的出发站到目的站都没有票了,这 ...

lakala proportion轨迹分析代码

lakala proportion轨迹分析代码的更多相关文章

随机推荐

热门专题