一个spark SQL和DataFrames的故事

package com.lin.spark

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.sql.types.{StringType, StructField, StructType}

/**

  * Created by Yaooo on 2019/6/8.

  */

object SparkSQLExample {

  case class Person(name:String,age:Long)

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .appName("Spark SQL")

      .config("spark.come.config.option","some-value")

        .master("local[2]")

      .getOrCreate()

    runBasicDataFrameExample(spark)

    runDatasetCreationExample(spark)

    runInferSchemaExample(spark)

    runProgrammaticSchemaExample(spark)

  }

  private def runProgrammaticSchemaExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val personRDD = spark.sparkContext.textFile("src/main/resources/people.txt")

    val schemaString = "name age"

    val fields = schemaString.split(" ")

      .map(fieldName => StructField(fieldName, StringType, nullable = true))

    val schema = StructType(fields)

    val rowRDD = personRDD

      .map(_.split(","))

      .map(att => Row(att(0),att(1).trim))

    val peopleDF = spark.createDataFrame(rowRDD,schema)

    peopleDF.createOrReplaceTempView("people")

    val results = spark.sql("select * from people")

    results.map(att=>"Name : "+att(0)).show()

  }

  private def runInferSchemaExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val personDF = spark.sparkContext

      .textFile("src/main/resources/people.txt")

      .map(_.split(","))

      .map(attributes => Person(attributes(0),attributes(1).trim.toInt))

      .toDF()

    personDF.createOrReplaceTempView("people")

    val teenagersDF = spark.sql("select * from people where age between 13 and 19")

    teenagersDF.show()

    teenagersDF.map(teenager =>"name: "+teenager(0)).show()

    teenagersDF.map(teenager => "Name: "+ teenager.getAs[String]("name")).show()

    implicit val mapEncoder = org.apache.spark.sql.Encoders.kryo[Map[String, Any]]

    teenagersDF.map(teenager => teenager.getValuesMap[Any](List("name","age"))).collect()

      .foreach(println)

  }

  private def runDatasetCreationExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val caseClassDS = Seq(Person("Andy",18)).toDF()

    caseClassDS.show()

    val primitiveDS = Seq(1, 2, 3).toDS()

    primitiveDS.map(_+1).collect().foreach(println)

    val path = "src/main/resources/person.json"

    val personDS = spark.read.json(path).as[Person]

    personDS.show()

  }

  private def runBasicDataFrameExample(spark:SparkSession): Unit ={

    import spark.implicits._

    val df = spark.read.json("src/main/resources/person.json")

    df.show()

    df.printSchema()

    df.select("name").show()

    df.select($"name",$"age"+1).show()

    df.filter($"age">21).show()

    df.groupBy($"age").count().show()

    /*df.createOrReplaceTempView("people")

    val sqlDF = spark.sql("select * from people")

    sqlDF.show()*/

    df.createOrReplaceGlobalTempView("people")

    spark.sql("select * from global_temp.people").show()

  }

}

一个spark SQL和DataFrames的故事的更多相关文章

Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets Guide | ApacheCN
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Apache Spark 2.2.0 中文文档 - Spark SQL, DataFrames and Datasets
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataFrames 开始入门起始点: SparkSession ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL官方文档阅读--待完善
1,DataFrame是一个将数据格式化为列形式的分布式容器,类似于一个关系型数据库表. 编程入口:SQLContext 2,SQLContext由SparkContext对象创建也可创建一个功能更 ...
spark SQL （二）聚合
聚合内置功能DataFrames提供共同聚合,例如count(),countDistinct(),avg(),max(),min(),等.虽然这些功能是专为DataFrames,spark SQL还拥 ...
Spark1.0新特性-->Spark SQL
Spark1.0出来了,变化还是挺大的,文档比以前齐全了,RDD支持的操作比以前多了一些,Spark on yarn功能我居然跑通了.但是最最重要的就是多了一个Spark SQL的功能,它能对RDD进 ...
Spark SQL概念学习系列之如何使用 Spark SQL（六）
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // 在这里引入 sqlContext 下所有的方法就可以直接用 sql 方法进行查询 ...

随机推荐

Mybatis-技术专区-中的条件查询createCriteria example里面的条件
之前用Mybatis框架反向的实体,还有实体里面的Example,之前只是知道Example里面放的是条件查询的方法,可以一直不知道怎么用,到今天才开始知道怎么简单的用. 在我们前台查询的时候会有许多 ...
node-sass 安装失败解决方法
使用淘宝镜像源 npm config set sass_binary_site https://npm.taobao.org/mirrors/node-sass/ npm install node-s ...
为什么MySQL索引要使用 B+树，而不是其它树形结构？
作者:李平 https://www.cnblogs.com/leefreeman/p/8315844.html 一个问题? InnoDB一棵B+树可以存放多少行数据?这个问题的简单回答是:约2千万为 ...
maven私服nexus3.9安装配置
maven私服nexus3.9安装配置私服介绍私服是指私有服务器,是架设在局域网的一种特殊的远程仓库,目的是代理远程仓库及部署第三方构建.有了私服之后,当 Maven 需要下载构件时,直接请求私服 ...
linux性能分析工具Top
bzoj4455 & loj2091 [Zjoi2016]小星星容斥原理+树形DP(+状压DP?)
题目传送门 https://lydsy.com/JudgeOnline/problem.php?id=4455 https://loj.ac/problem/2091 题解很不错的一道题.(不过在当 ...
使用axios上传文件到阿里云对象文件存储服务器oss
背景 OSS可用于图片.音视频.日志等海量文件的存储.各种终端设备.Web网站程序.移动应用可以直接向OSS写入或读取数据.OSS支持流式写入和文件写入两种方式.使用阿里云oss做文件存储的时候,不可 ...
"||" 在sql中有什么用
双竖线表示字符串拼接比如: 'abc' || 'cba' 结果: 'abccba'
poj 2104: K-th Number 【主席树】
题目链接学习了一下主席树,感觉具体算法思路不大好讲.. 大概是先建个空线段树,然后类似于递推,每一个都在前一个“历史版本”的基础上建立一个新的“历史版本”,每个历史版本只需占用树高个空间(好神奇!) ...
excel VBA 编程
Dim cuttent_columns As Integer Dim care_repeat As Integer Private Sub Workbook_Open() Dim i As Integ ...

一个spark SQL和DataFrames的故事

一个spark SQL和DataFrames的故事的更多相关文章

随机推荐

热门专题