Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)

题目: 将数据的某个特征作为label, 其他特征(或其他某几个特征)作为Feature, 转为LabelPoint

参考: http://www.it1352.com/220642.html

首先构造数据

import scala.util.Random.{setSeed, nextDouble}

setSeed(1)

case class Record(foo: Double, target: Double, x1: Double, x2: Double, x3: Double)

val rows = sc.parallelize(

    (1 to 10).map(_ => Record(

        nextDouble, nextDouble, nextDouble, nextDouble, nextDouble

   ))

)

val df = sqlContext.createDataFrame(rows)

df.registerTempTable("df")

sqlContext.sql("""

  SELECT ROUND(foo, 2) foo,

         ROUND(target, 2) target,

         ROUND(x1, 2) x1,

         ROUND(x2, 2) x2,

         ROUND(x2, 2) x3

  FROM df""").show

得到的数据如下:

+----+------+----+----+----+

| foo|target|  x1|  x2|  x3|

+----+------+----+----+----+

|0.73|  0.41|0.21|0.33|0.33|

|0.01|  0.96|0.94|0.95|0.95|

| 0.4|  0.35|0.29|0.51|0.51|

|0.77|  0.66|0.16|0.38|0.38|

|0.69|  0.81|0.01|0.52|0.52|

|0.14|  0.48|0.54|0.58|0.58|

|0.62|  0.18|0.01|0.16|0.16|

|0.54|  0.97|0.25|0.39|0.39|

|0.43|  0.23|0.89|0.04|0.04|

|0.66|  0.12|0.65|0.98|0.98|

+----+------+----+----+----+

假设我们想排除x2和foo, 抽取 LabeledPoint(target, Array(x1, x3)):

import org.apache.spark.mllib.linalg.{Vector, Vectors}

import org.apache.spark.mllib.regression.LabeledPoint 

// Map feature names to indices

val featInd = List("x1", "x3").map(df.columns.indexOf(_))

// Or if you want to exclude columns

val ignored = List("foo", "target", "x2")

val featInd = df.columns.diff(ignored).map(df.columns.indexOf(_))

// Get index of target

val targetInd = df.columns.indexOf("target") 

df.rdd.map(r => LabeledPoint(

   r.getDouble(targetInd), // Get target value

   // Map feature indices to values

   Vectors.dense(featInd.map(r.getDouble(_)).toArray)

))

原文转自 http://blog.csdn.net/zrc199021/article/details/53676116

Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)的更多相关文章

[Oracle]快速构造大量数据的方法
[Oracle]快速构造大量数据的方法: create table tab001(id integer primary key, val varchar2(100)); insert into tab ...
Spark RDD概念学习系列之RDD的缓存（八）
RDD的缓存 RDD的缓存和RDD的checkpoint的区别缓存是在计算结束后,直接将计算结果通过用户定义的存储级别(存储级别定义了缓存存储的介质,现在支持内存.本地文件系统和Tachyon) ...
Spark RDD概念学习系列之RDD的转换（十）
RDD的转换 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG.接下来以“Word Count”为例,详细描述这个DAG生成的 ...
Spark—RDD编程常用转换算子代码实例
Spark-RDD编程常用转换算子代码实例 Spark rdd 常用 Transformation 实例: 1.def map[U: ClassTag](f: T => U): RDD[U] ...
Spark RDD概念学习系列之RDD的5大特点（五）
RDD的5大特点 1)有一个分片列表,就是能被切分,和Hadoop一样,能够切分的数据才能并行计算. 一组分片(partition),即数据集的基本组成单位,对于RDD来说,每个分片都会被一个计 ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
Spark RDD深度解析-RDD计算流程
Spark RDD深度解析-RDD计算流程摘要 RDD(Resilient Distributed Datasets)是Spark的核心数据结构,所有数据计算操作均基于该结构进行,包括Spark ...
[bigdata] Spark RDD整理
1. RDD是什么RDD:Spark的核心概念是RDD (resilient distributed dataset),指的是一个只读的,可分区的弹性分布式数据集,这个数据集的全部或部分可以缓存在内存 ...
Spark RDD
对RDD的学习进行一下整理 RDD:基于内存的集群计算容错抽象分布式内存抽象的概念---弹性分布式数据集(RDD),它具备MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基 ...

随机推荐

[转帖]Hadoop、Hive、Spark 之间关系
Hadoop.Hive.Spark 之间关系 https://www.cnblogs.com/jins-note/p/9513426.html 很的很诙谐有趣. 作者:Xiaoyu Ma ,大数据工程 ...
【Qt】Qt5.12连接MySQl5.7(亲自测试成功)
目录 00. 目录 01. Qt5.12连接MySQL5.7测试代码 02. Qt5.12连接MySQL5.7问题描述 03. 解决办法 04. 结果测试 05. 打赏 00. 目录 01. Qt5. ...
Markdown试试
from os import time print("haha") from os import time print("haha") time.time()! ...
Mac下Sublime Text3激活码
方法1: 终端中打开文件 /etc/hosts,插入如下语句 127.0.0.1 www.sublimetext.com 127.0.0.1 license.sublimehq.com 方法2: 在s ...
interface Part3（实现：显示和隐式）
1. 接口的实现实际上和类之间的继承是一样的,也是重写了接口中的方法,让其有了具体的实现内容. 2. 但需要注意的是,在类中实现一个接口时必须将接口中的所有成员都实现,否则该类必须声明为抽象类,并将接 ...
在我的电脑中删除wps云文档图标
在我的电脑中删除wps云文档图标右键点击win10左下角选择运行,输入regedit打开注册表后,找到以下注册表路径: HKEY_CURRENT_USER\Software\Microsoft\Wi ...
HTML 标签入门
HTML 简介定义: 超文本标记语言(html)是标准通用标记语言下的一个应用,也是一种规范,一种标准它通过标记符号来表示网页中的各个部分,网页文件本身是一种文本文件,通过在文本文件中添加标记符, ...
oracle 的分页、截断查询
oracle 分页.截断查询需求:从车管所的备案库中(oracle)取出数据,放到车综大数据平台(http方式) 现场情况:oracle中有三张表,CZRKXX(常住人口信息),ZDRYXX(重点人 ...
vue打包后.woff字体文件路径问题处理
在执行 npm run build 命令打包后,如果出现 .woff 等字体文件找不到的情况通过设置 vue-style-loader 打包前缀路径解决
Java 之递归
一.概述递归:指在当前方法内调用自己的现象. 递归的分类: 递归分为两种,直接递归和简介递归直接递归称为方法自身调用自己间接递归可以 A 方法调用 B 方法,B 方法调用 C 方法,C 方法调用 ...

Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)

Spark RDD 到 LabelPoint的转换(包含构造临时数据的方法)的更多相关文章

随机推荐

热门专题