spark 基本操作（二）

1.dataframe 基本操作

 def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder()

      .appName("test")

      .master("local[*]")

      .getOrCreate()

    import spark.implicits._

    val people = spark.read.format("json").load("people.json")

    people.show()

    /*    +----+-------+

        | age|   name|

        +----+-------+

        |null|Michael|

          |  30|   Andy|

          |  19| Justin|

          +----+-------+   */

    people.printSchema()

    /*root

    |-- age: long (nullable = true)

    |-- name: string (nullable = true)*/

    people.select($"name").show()

    /*    +-------+

        |   name|

        +-------+

        |Michael|

        |   Andy|

        | Justin|

        +-------+*/

    people.select($"name", $"age".cast("string").as("age")).printSchema()

    /*    root

        |-- name: string (nullable = true)

        |-- age: string (nullable = true)*/

    people.select($"name", ($"age" + ).as("age")).show()

    /*    +-------+----+

        |   name| age|

        +-------+----+

        |Michael|null|

          |   Andy|  31|

          | Justin|  20|

          +-------+----+*/

    people.filter($"age" > ).show()

    //    +---+----+

    //    |age|name|

    //    +---+----+

    //    | 30|Andy|

    //      +---+----+

    people.groupBy("age").count().show()

    //    +----+-----+

    //    | age|count|

    //    +----+-----+

    //    |  19|    1|

    //      |null|    1|

    //      |  30|    1|

    //      +----+-----+

    spark.stop()

  }

2.用sql 访问dataframe

    val people = spark.read.format("json").load("people.json")

    people.createOrReplaceTempView("tb")

    spark.sql("select name,age from tb").show()

//    +-------+----+

//    |   name| age|

//    +-------+----+

//    |Michael|null|

//      |   Andy|  30|

//      | Justin|  19|

//      +-------+----+

3.创建dataset

    val ccDs = Seq(Person("jason",),Person("dong",)).toDS()

    ccDs.select("name").show()

    val pDs = Seq(,,).toDS()

    pDs.map(_+).show()

    pDs.printSchema()

4.反射推断模式

    val spark = SparkSession.builder()

      .appName("test")

      .master("local[*]")

      .getOrCreate()

    import spark.implicits._

    val sc = spark.sparkContext

    val peopleDF = sc.textFile("people.txt")

      .map(_.split(",", -))

      .map(arr => Person(arr().trim, arr().trim.toInt))

      .toDF().cache().createOrReplaceTempView("people")

    val teenagerDF = spark.sql("select * from  people where age between 13 and 15").cache()

    teenagerDF.map(t => "name :" + t()).show()

//    +-------------+

//    |        value|

//    +-------------+

//    |name :Michael|

//      +-------------+

    teenagerDF.map(t => "name:" + t.getAs[String]("name")).show()

//    +-------------+

//    |        value|

//    +-------------+

//    |name :Michael|

//      +-------------+

    implicit val mapEncoder = org.apache.spark.sql.Encoders.kryo[Map[String, Any]]

    teenagerDF.map(t => t.getValuesMap[Any](Seq("name", "age"))).collect().foreach(println)

//    +-------------+

//    |        value|

//    +-------------+

//    |name :Michael|

//      +-------------+

    spark.stop()

5.通过编程指定schema来创建DF

    val peopleRDD = sc.textFile("people.txt")

      .map(_.split(",", -))

      .map(arr => Row(arr().trim, arr().trim))

    val schemaString = "name age"

    val structfield = schemaString.split("\\s+")

      .map(a => StructField(a, StringType, true))

    val schema = StructType(structfield)

    val peopleDF = spark.createDataFrame(peopleRDD, schema)

    peopleDF.show()

//    +-------+---+

//    |   name|age|

//    +-------+---+

//    |Michael| 15|

//      |   Andy| 30|

//      | Justin| 19|

//      +-------+---+

6.直接从file执行sql

    spark.sql("select name,age from json.`people.json`").show()

//    +-------+----+

//    |   name| age|

//    +-------+----+

//    |Michael|null|

//      |   Andy|  30|

//      | Justin|  19|

//      +-------+----+

7.合并schema

    val squaresDF = spark.sparkContext.makeRDD( to ).map(i => (i, i * i)).toDF("value", "square")

    squaresDF.write.parquet("data/test_table/key=1")

    val cubesDF = spark.sparkContext.makeRDD( to ).map(i => (i, i * i * i)).toDF("value", "cube")

    cubesDF.write.parquet("data/test_table/key=2")

    val mergedDF = spark.read.option("mergeSchema", "true").parquet("data/test_table")

    mergedDF.printSchema()

//    root

//    |-- value: integer (nullable = true)

//    |-- square: integer (nullable = true)

//    |-- cube: integer (nullable = true)

//    |-- key: integer (nullable = true)

    mergedDF.show()

//    +-----+------+----+---+

//    |value|square|cube|key|

//    +-----+------+----+---+

//    |    4|    16|null|  1|

//      |    5|    25|null|  1|

//      |    9|  null| 729|  2|

//      |   10|  null|1000|  2|

//      |    1|     1|null|  1|

//      |    2|     4|null|  1|

//      |    3|     9|null|  1|

//      |    6|  null| 216|  2|

//      |    7|  null| 343|  2|

//      |    8|  null| 512|  2|

//      +-----+------+----+---+

8.dataframe 字符串拼接

    val squaresDF = spark.sparkContext.makeRDD( to ).map(i => (i, i * i)).toDF("value", "square")

    squaresDF.createOrReplaceTempView("vs")

    squaresDF.show()

    squaresDF.map{case Row(key:Int,value:Int)=>s"$key$value"}.toDF("vv").show()

    spark.sql("select concat(value,square) as vv from vs").show()

spark 基本操作（二）的更多相关文章

Spark（二）算子详解
目录 Spark(二)算子讲解一.wordcountcount 二.编程模型三.RDD数据集和算子的使用 Spark(二)算子讲解 @ 一.wordcountcount 基于上次的wordcoun ...
Arduboy基本操作(二)
Arduboy基本操作(二) 方向键控制物体移动 #include<Arduboy.h> Arduboy arduboy; int i,j; void setup() { arduboy. ...
分别使用Hadoop和Spark实现二次排序
零.序(注意本部分与标题无太大关系,可直接调至第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识, ...
spark的二次排序
通过scala实现二次排序 package _core.SortAndTopN import org.apache.spark.{SparkConf, SparkContext} /** * Auth ...
大数据入门第二十二天——spark（二）RDD算子（2）与spark其它特性
一.JdbcRDD与关系型数据库交互虽然略显鸡肋,但这里还是记录一下(点开JdbcRDD可以看到限制比较死,基本是鸡肋.但好在我们可以通过自定义的JdbcRDD来帮助我们完成与关系型数据库的交互.这 ...
大数据入门第二十二天——spark（二）RDD算子（1）
一.RDD概述 1.什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变.可分区.里面的元素可并行计算的 ...
Spark（二）CentOS7.5搭建Spark2.3.1分布式集群
一下载安装包 1 官方下载官方下载地址:http://spark.apache.org/downloads.html 2 安装前提 Java8 安装成功 zookeeper 安 ...
spark streaming (二)
一.基础核心概念 1.StreamingContext详解 (一) 有两种创建StreamingContext的方式: val conf = new SparkConf().s ...
spark 学习(二) RDD及共享变量
声明:本文基于spark的programming guide,并融合自己的相关理解整理而成 Spark应用程序总是包括着一个driver program(驱动程序),它运行着用户的main方 ...

随机推荐

关于Panel隐藏横向滚动条
不设置控件的AutoScroll属性,在后台写代码,就可以隐藏掉横向滚动条
Dr. Memory Quickstart Instructions in Chinese
For similar insructions in English, please see RPI CSCI1200 instructions. 程序内存调试程序内存错误有很多种,比如内存访问错误 ...
浅谈Spring解决循环依赖的三种方式
引言:循环依赖就是N个类中循环嵌套引用,如果在日常开发中我们用new 对象的方式发生这种循环依赖的话程序会在运行时一直循环调用,直至内存溢出报错.下面说一下Spring是如果解决循环依赖的. 第一种: ...
Delphi编译/链接过程
下面展示了Delphi是怎样编译源文件,并且把它们链接起来,最终形成可执行文件. 当Delphi编译项目(Project)时,将编译项目源文件.窗体单元和其他相关单元,在这个过程中将会发生好几件事情: ...
JS 将数值取整为10的倍数
问题描述: 将数值处理为 10 的倍数,并支持向上或者向下取整如将 2345 可以处理为 2300 | 2400 | 3000 | 2000 解决方案: /** * 将数字取整为10的倍数 * @p ...
web攻击日志分析之新手指
0x00 前言现实中可能会经常出现web日志当中出现一些被攻击的迹象,比如针对你的一个站点的URL进行SQL注入测试等等,这时候需要你从日志当中分析到底是个什么情况,如果非常严重的话,可能需要调查取 ...
canvas与svg整理与区别
1.canvas画布(位图) 2.绘制矢量图 1.不要在style中给canvas设置宽高会有位移差 2. //获取元素 var c=document.getElementById("c& ...
redis不能保存bean对象
可用JSON转为json格式 // 2.3 将用户信息存储在redis中 String memberToJson = JSON.toJSON(member).toString(); 需要maven坐标 ...
Linux服务管理之ntp
NTP是网络时间协议(Network Time Protocol),它是用来同步网络中各个计算机的时间的协议. 在计算机的世界里,时间非常地重要,例如对于火箭发射这种科研活动,对时间的统一性和准确性要 ...
Centos6.5硬盘故障修复
以企业Centos6.5Linux为案例来修复系统,步骤如下: (1)远程备份本地其他重要数据,出现只读文件系统,需要先备份其他重要数据基于rsync|scp远程备份,其中/data为源目录,/dat ...

spark 基本操作（二）

spark 基本操作（二）的更多相关文章

随机推荐

热门专题