一、知识点：

1、Dataframe新增一列：https://www.cnblogs.com/itboys/p/9762808.html

方法四和五是新增一列唯一ID

方法一：利用createDataFrame方法，新增列的过程包含在构建rdd和schema中

方法二：利用withColumn方法，新增列的过程包含在udf函数中

方法三：利用SQL代码，新增列的过程直接写入SQL代码中

方法四：以上三种是增加一个有判断的列，如果想要增加一列唯一序号，可以使用monotonically_increasing_id
方法五：使用zipWithUniqueId获取id 并重建 DataFrame.

// dataframe新增一列方法1，利用createDataFrame方法

val trdd = input.select(targetColumns).rdd.map(x=>{

  if (x.get(0).toString().toDouble > critValueR || x.get(0).toString().toDouble < critValueL)

    Row(x.get(0).toString().toDouble,"F")

  else Row(x.get(0).toString().toDouble,"T")

  })

val schema = input.select(targetColumns).schema.add("flag", StringType, true)

val sample3 = ss.createDataFrame(trdd, schema).distinct().withColumnRenamed(targetColumns, "idx")

// dataframe新增一列方法2

val code :(Int => String) = (arg: Int) => {if (arg > critValueR || arg < critValueL) "F" else "T"}

val addCol = udf(code)

val sample3 = input.select(targetColumns).withColumn("flag", addCol(input(targetColumns)))

.withColumnRenamed(targetColumns, "idx")

// dataframe新增一列方法3

input.select(targetColumns).createOrReplaceTempView("tmp")

val sample3 = ss.sqlContext.sql("select distinct "+targetColname+

    " as idx,case when "+targetColname+">"+critValueR+" then 'F'"+

    " when "+targetColname+"<"+critValueL+" then 'F' else 'T' end as flag from tmp")

// 添加序号列新增一列方法4

import org.apache.spark.sql.functions.monotonically_increasing_id

val inputnew = input.withColumn("idx", monotonically_increasing_id)

// 这个id虽然是唯一的,但是不能从零开始,也不是顺序排列,可以简单理解为是随机产生的标识码

// 方法五：使用zipWithUniqueId获取id 并重建 DataFrame.

import spark.implicits._ 
import org.apache.spark.sql.Row 
import org.apache.spark.sql.types.{StructType, StructField, LongType} 
val df =Seq(("a", -1.0), ("b", -2.0), ("c", -3.0)).toDF("foo", "bar") 
// 获取df 的表头
val s = df.schema
// 将原表转换成带有rdd,

//再转换成带有id的rdd,

//再展开成Seq方便转化成 Dataframe

val rows = df.rdd.zipWithUniqueId.map{case (r: Row, id: Long) => Row.fromSeq(id +: r.toSeq)}

// 再由 row 根据原表头进行转换

val dfWithPK = spark.createDataFrame( rows, StructType(StructField("id", LongType, false) +: s.fields))

2、新增一列ID：https://blog.csdn.net/liaodaoluyun/article/details/86232639

二、wordcount

package com.qihoo.spark.examles

import com.qihoo.spark.app.SparkAppJob

import org.apache.spark.SparkContext

import org.kohsuke.args4j.{Option => ArgOption}

import org.apache.spark.sql.functions.monotonically_increasing_id

class WordCount extends SparkAppJob {

  //input

  @ArgOption(name = "-i", required = true, aliases = Array("--input"), usage = "input")

  var input: String = _

  //output

  @ArgOption(name = "-o", required = true, aliases = Array("--output"), usage = "output")

  var output: String = _

  override protected def run(sc: SparkContext): Unit = {

    import sparkSession.implicits._

    val showDasouSegment = sparkSession.read.text(input).as[String].filter(_.trim.length() != 0)

    showDasouSegment.show()

    val words = showDasouSegment

      .map(line => line.split("\t"))

      .flatMap(line => line(1).split(" "))

      .groupByKey(value=>value)

    // val counts = words.count() 这一句是才让wordcount有效。以下代码是增加一列word的ID。
　　// counts.show() 打印结果

    val res = words.keys.withColumn("ID",monotonically_increasing_id)

    res.show()

    // res.write.text(output) 这句话应该会报错，因为要将dataframe所有列合并成一列才能采用text存储。
　　// val concatDf = res.select(concat_ws("\t", $"word", $"id")) 将res中的word和id列合并成一列。

  }

}

scala学习（3）-----wordcount【sparksession】的更多相关文章

【Todo】【读书笔记】大数据Spark企业级实战版 & Scala学习
下了这本<大数据Spark企业级实战版>, 另外还有一本<Spark大数据处理:技术.应用与性能优化(全)> 先看前一篇. 根据书里的前言里面,对于阅读顺序的建议.先看最后的S ...
Spark之Scala学习
1. Scala集合学习: http://blog.csdn.net/lyrebing/article/details/20362227 2. scala实现kmeans算法 http://www.t ...
Spark编程环境搭建（基于Intellij IDEA的Ultimate版本）（包含Java和Scala版的WordCount）（博主强烈推荐)
福利 => 每天都推送欢迎大家,关注微信扫码并加入我的4个微信公众号: 大数据躺过的坑 Java从入门到架构师人工智能躺过的坑 Java全栈大联盟 ...
Scala学习资源
Scala学习资源: Scala官方网站:http://www.scala-lang.org/ Scala github:https://github.com/scala/scala Twitter ...
机器学习（三）--- scala学习笔记
Scala是一门多范式的编程语言,一种类似Java的编程语言,设计初衷是实现可伸缩的语言.并集成面向对象编程和函数式编程的各种特性. Spark是UC Berkeley AMP lab所开源的类Had ...
【Scala】Scala学习资料
Scala学习资料 java 树形分类器_百度搜索决策树分类器-Java实现 - CSDN博客 KNN分类器-Java实现 - CSDN博客学习:java设计模式—分类 - 飞翔荷兰人 - 博客 ...
Scala学习网址
scala学习网址为:https://twitter.github.io/scala_school/zh_cn https://www.zhihu.com/question/26707124
基于.net的分布式系统限流组件 C# DataGridView绑定List对象时，利用BindingList来实现增删查改 .net中ThreadPool与Task的认识总结 C# 排序技术研究与对比基于.net的通用内存缓存模型组件 Scala学习笔记：重要语法特性
基于.net的分布式系统限流组件在互联网应用中,流量洪峰是常有的事情.在应对流量洪峰时,通用的处理模式一般有排队.限流,这样可以非常直接有效的保护系统,防止系统被打爆.另外,通过限流技术手段,可 ...
Scala学习笔记及与Java不同之处总结-从Java开发者角度
Scala与Java具有很多相似之处,但又有很多不同.这里主要从一个Java开发者的角度,总结在使用Scala的过程中所面临的一些思维转变. 这里仅仅是总结了部分两种语言在开发过程中的不同,以后会陆续 ...

随机推荐

[项目机会]使用lync的统一通信平台
[项目内容]基于微软的lync或者其他思科.腾讯等公司技术,建立一个员工统一的通讯平台,可以随时的保持员工之间沟通. [项目价值] 1.保持项目团队成员之间的随时随地高效的电话或者视频会议: 2.集成 ...
定时删除clientmqueue
* * */1 * * cd /var/spool; cp -r clientmqueue /home/data/xl_project/var_spool_clientmqueue_$(date + ...
XAML实例教程系列 - 标记扩展(Markup Extensions) 六
XAML实例教程系列 - 标记扩展(Markup Extensions) 分类: Windows 8 Silverlight2012-06-21 13:00 1139人阅读评论(0) 收藏举报扩 ...
IDEA 单元测试
下载所需的两个 jar 包,下载地址:Download and Install · junit-team/junit4 Wiki · GitHub junit-4.12.jar hamcrest-co ...
MySQL5.7修改字符集
本人安装的mysql版本是5.7.20,安装好mysql后就要对字符集进行修改了,于是照着网上的大部分教程说的去安装目录找一个my-default.ini文件,然后重命名为my.ini,再对其进修改字 ...
bzoj4407
http://www.lydsy.com/JudgeOnline/problem.php?id=4407 以前写过一次线性筛发现不是很理解写了个欧拉筛的 t了其实每次推式子,都会先推出一组的解法 ...
Eclipse使用Tomcat发布项目时出现YadisException异常解决方案
调整使用Eclipse的JDK版本,大概JDK版本过低会出现这个org.openid4java.discovery.yadis.YadisException: 0x704: I/O transport ...
hdu6198 number number number（递推公式黑科技）
number number number Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Oth ...
莫队算法 BOJ 2038 [2009国家集训队]小Z的袜子(hose)
题目传送门 /* 莫队算法:求出[l, r]上取出两只相同袜子的个数. 莫队算法是离线处理一类区间不修改查询类问题的算法.如果你知道了[L,R]的答案,可以在O(1)的时间下得到 [L,R-1]和[L ...
scala学习笔记1: scala method
刚接触scala,做练习的时候碰到一个问题,顺便mark一下. 先看下面一段代码: def sum(args:Int*) = { var result = 0 for (arg <- args) ...

scala学习（3）-----wordcount【sparksession】

一、知识点：

二、wordcount

scala学习（3）-----wordcount【sparksession】的更多相关文章

随机推荐

热门专题