Spark SQL和CSl

1

import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

object Demo1Sess {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()

      .master("local")

      .appName("Demo1Sess")

    // 设置spark sql产生shuffle后默认的分区数 => 并行度

    // 默认是 200

      .config("spark.sql.shuffle.partitions",3)

      .getOrCreate()

    // 从SparkSession获取SparkContext

    //    val sc: SparkContext = spark.sparkContext

    // json中每条数据都自带结构 可以直接转换成DF

    val stuDF: DataFrame = spark

      .read

      .format("json")

      .load("spark/data/students.json")

    stuDF.show()  //默认显示20条

    // 文本类的数据 默认是没有列名的 直接读进来是 _c0 _c1 _c2 ......

    // 可以通过schema手动指定列名,空格隔开字段和字段类型

    val stucsDF: DataFrame = spark

      .read

      .format("csv")

      .schema("id String,name String,age Int,gender String,clazz String")

      .load("scala/data/students.txt")

    stucsDF.show()

    // 直接将DataFrame注册成临时视图view

    stucsDF.createOrReplaceTempView("stu")

    // sql的方式

    val ageDF: DataFrame = spark.sql("select * from stu where age=22")

    ageDF.show()

    // 同rdd一样，操作算子可以触发job

    // DSL 类SQL的方式 介于SQL和代码中间的API

    val dslDF: DataFrame = stucsDF.where("age=23")

      .select("name", "age", "clazz")

    dslDF.show()

    // 统计班级人数

    stucsDF.groupBy("clazz")

      .count()

      .write

      .mode(SaveMode.Overwrite)

      .save("spark/data/clazz_cnt")

    // 保存的时候可以指定SaveMode

    // Overwrite 覆盖

    // Append 追加

    // 默认以parquet形式保存

  }

}

2

import Practice.Student

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, Row, SaveMode, SparkSession}

object Demo2CreateDF {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()

      .master("local")

      .appName("Demo2CreateDF")

      .config("spark.sql.shuffle.partitions", 3)

      .getOrCreate()

    /**

      * 1、读json数据

      */

    val jsonDF: DataFrame = spark.read

      .format("json")

      .load("spark/data/students.json")

    //    jsonDF.show() // 默认显示20条

    //    jsonDF.show(100) // 显示100条

    //    jsonDF.show(false) // 完全显示

//    jsonDF.show()

    /**

      * 2、读文本文件

      */

    val csvDF: DataFrame = spark.read

      .format("csv")

      //csv 格式读取默认是以逗号分隔

      .option("sep", ",")

      .schema("id String,name String,age Int,gender String,clazz String")

      .load("scala/data/students.txt")

//    csvDF.show()

    /**

      * 3、JDBC 读取MySQL的一张表转换成 Spark SQL中的DF

      */

    val jdbcDF: DataFrame = spark.read

      .format("jdbc")

      .option("url", "jdbc:mysql://master:3306/student")

      .option("dbtable", "student")

      .option("user", "root")

      .option("password", "123456")

      .load()

//    jdbcDF.show()

    // 将数据以parquet格式保存

//    jdbcDF

//      .write

//      .mode(SaveMode.Overwrite)

//      .parquet("spark/data/stu_parquet")

    /**

      * 4、读取parquet文件

      * 无法直接查看，默认会进行压缩，而且自带表结构，读取时不需要指定schema

      * 默认使用snappy压缩方式进行压缩

      */

    spark.read

      .format("parquet")

      .load("spark/data/stu_parquet")

//      .show()

    // 将数据以orc格式保存

    //    jdbcDF.write.orc("spark/data/stu_orc")

    /**

      * 5、读取ORC格式的文件

      * 也会默认进行压缩，空间占用率最小，默认带有表结构，可以直接读取

      */

//    spark

//      .read

//      .format("orc")

//      .load("spark/data/stu_orc")

    /**

      * 6、从RDD构建DF

      */

    val stuRDD: RDD[String] = spark.sparkContext.textFile("scala/data/students.txt")

    val stuRDD2: RDD[Student] = stuRDD.map(line => {

      val splits: Array[String] = line.split(",")

      val id: String = splits(0)

      val name: String = splits(1)

      val age: String = splits(2)

      val gender: String = splits(3)

      val clazz: String = splits(4)

      Student(id, name, age, gender, clazz)

    })

    // 导入隐式转换

    import spark.implicits._

    val sDF: DataFrame = stuRDD2.toDF()

    sDF.show()

    // DataFrame to RDD

    val rdd: RDD[Row] = sDF.rdd

    rdd.foreach(row=>{

      val id: String = row.getAs[String]("id")

      val name: String = row.getAs[String]("name")

      println(s"$id,$name")

    })

  }

  case class Student(id:String,name:String,age: String, gender: String, clazz: String)

}

3

import org.apache.spark.sql.{DataFrame, SparkSession}

object DFapi {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()

      .master("local")

      .appName("DFapi")

      .config("spark.sql.shuffle.partitions", 2)

      .getOrCreate()

    import spark.implicits._

    val stuDF: DataFrame = spark.read

      .format("csv")

      .option("sep", ",")

      .schema("id String,name String,age String,gender String,clazz String")

      .load("scala/data/students.txt")

    // 对多次使用的DF也可进行cache

    stuDF.cache()

    // 过滤 where

    // 过滤出 年龄 大于 23的学生

    // DSL

    // 字符串表达式

    stuDF.where("age>23")

    // 列表达式 （推荐）,需要先导入隐式转换

    stuDF.where($"age" > 23)

    // 使用filter加函数的方式进行过滤

    stuDF.filter(row => {

      val age: String = row.getAs[String]("age")

      if (age.toInt > 23) {

        true

      }

      else {

        false

      }

    })

    // select

    stuDF.select($"id", $"name", $"age" + 100 as "newage")

    // 分组 groupBy

    // 聚合

    // 统计班级人数

    stuDF.groupBy($"clazz")

      .count().show()

    // 导入所有的sql函数

    import org.apache.spark.sql.functions._

    // 统计每个班的性别人数

    stuDF.groupBy($"clazz", $"gender")

      .agg(count($"gender"))

      .show()

    // 统计班级人数（数据可能有重复）

    stuDF.groupBy($"clazz")

      .agg(countDistinct($"id") as "去重人数")

      .show()

    // SQL 的方式

    stuDF.createOrReplaceTempView("stu")

    spark.sql(

      """

        |select clazz,count(distinct id)

        |from stu

        |group by clazz

      """.stripMargin

    ).show()

    // join

    val scoreDF: DataFrame = spark.read

      .format("csv")

      .schema("sid String,sub_id String,score Int")

      .load("scala/data/score.txt")

    // 当两张表的关联字段名字一样时

    // 在这里直接指定 "id"  默认是inner join

    //      .join(scoreDF, "id")

    // 可以将 "id" 放入 List 传入 再指定关联类型

    //      .join(scoreDF, List("id"), "left")

    // 如果 关联字段不一样

    stuDF.join(scoreDF,$"id"===$"sid","left").show()

    stuDF.unpersist()

  }

}

4

import org.apache.spark.sql.{DataFrame, SparkSession}

object DianXin {

  def main(args: Array[String]): Unit = {

    val spark: SparkSession = SparkSession.builder()

      .master("local")

      .appName("DianXin")

      .config("spark.sql.shuffle.partitions", 2)

      .getOrCreate()

    val dxDF: DataFrame = spark.read

      .format("csv")

      .option("sep", ",")

      .schema("mdn String,grid_id String,city_id String,county_id String,t String,start_time String,end_time String,date String")

      .load("spark/data/dianxin_data")

    // 导入隐式转换

    import spark.implicits._

    // 导入Spark SQL中所有的函数

    import org.apache.spark.sql.functions._

    // 按城市统计每个区县的游客人数top3

    dxDF.createOrReplaceTempView("dx")

    spark.sql(

      """

        |select tt1.city_id,tt1.county_id,tt1.sum,tt1.rk

        |from

        |(select t1. city_id,t1.county_id,t1.sum,row_number() over (partition by county_id order by t1.sum desc) as rk

        |from

        |(select  city_id,county_id,count(distinct mdn) as sum

        |from

        |dx

        |group by city_id,county_id) t1) tt1

        |where tt1.rk<3

        |

      """.stripMargin

    ).show()

  }

}

Spark SQL和CSl的更多相关文章

Spark SQL 之 Data Sources
#Spark SQL 之 Data Sources 转载请注明出处:http://www.cnblogs.com/BYRans/ 数据源(Data Source) Spark SQL的DataFram ...
Spark SQL 之 DataFrame
Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组件,用于结构化 ...
【原】Learning Spark (Python版) 学习笔记(三)----工作原理、调优与Spark SQL
周末的任务是更新Learning Spark系列第三篇,以为自己写不完了,但为了改正拖延症,还是得完成给自己定的任务啊 = =.这三章主要讲Spark的运行过程(本地+集群),性能调优以及Spark ...
Spark 官方文档（5）——Spark SQL，DataFrames和Datasets 指南
Spark版本:1.6.2 概览 Spark SQL用于处理结构化数据,与Spark RDD API不同,它提供更多关于数据结构信息和计算任务运行信息的接口,Spark SQL内部使用这些额外的信息完 ...
Spark SQL Example
Spark SQL Example This example demonstrates how to use sqlContext.sql to create and load a table ...
通过Spark SQL关联查询两个HDFS上的文件操作
order_created.txt 订单编号订单创建时间 -- :: -- :: -- :: -- :: -- :: order_picked.txt 订单编号订单提取时间 -- :: ...
Spark SQL 之 Migration Guide
Spark SQL 之 Migration Guide 支持的Hive功能转载请注明出处:http://www.cnblogs.com/BYRans/ Migration Guide 与Hive的兼 ...
Spark SQL 官方文档-中文翻译
Spark SQL 官方文档-中文翻译 Spark版本:Spark 1.5.2 转载请注明出处:http://www.cnblogs.com/BYRans/ 1 概述(Overview) 2 Data ...
Spark SQL 之 Performance Tuning & Distributed SQL Engine
Spark SQL 之 Performance Tuning & Distributed SQL Engine 转载请注明出处:http://www.cnblogs.com/BYRans/ 缓 ...

随机推荐

【转】C# / Extension 扩展方法
扩展方法简介扩展方法使你能够向现有类型"添加"方法,而无需创建新的派生类型.重新编译或以其他方式修改原始类型. 扩展方法是一种特殊的静态方法,但可以像扩展类型上的实例方法一样进行调 ...
Html设置文本换行与不按行操作
图片来源:W3C 部分引自大佬:https://zhidao.baidu.com/question/424920602093167052.html 强制不换行 div{ white-space:now ...
storyboard文件的认识
- 作用:描述软件界面 - 程序启动的简单过程 - 程序一启动,就会加载`Main.storyboard`文件 - 会创建箭头所指的控制器,并且显示控制器所管理的软件界面 - 配置程序 ...
axios取消接口请求
axios取消请求这里就是分析一下接口请求需要被取消时的一些操作因为我是用vue写的项目,所以标配用的是axios,怎么在axios中取消已经发送的请求呢? 1.在这之前我们还是先介绍一下原生js ...
epoll反应堆模型实现
epoll反应堆模型demo实现在高并发TCP请求中,为了实现资源的节省,效率的提升,Epoll逐渐替代了之前的select和poll,它在用户层上规避了忙轮询这种效率不高的监听方式,epoll的时 ...
Scala中的运算符
Scala和Java中的运算符用法基本一致. 一.区别 1."=="和"equals"的用法 Java: String str1 = "abc&quo ...
Docker磁盘空间分析与清理
首先使用du命令逐层分析docker磁盘的使用情况: (base) [root@openvino docker]# du -h --max-depth=1 | sort 0 ./containerd ...
Pandas中Series与Dataframe的初始化
(一)Series初始化 1.通过列表,index自动生成 se = pd.Series(['Tom', 'Nancy', 'Jack', 'Tony']) print(se) 2.通过列表,指定in ...
CentOS虚拟机关闭防火墙
关闭防火墙 systemctl stop firewalld 关闭防火墙开机自启动 systemctl disable firewalld 关闭安全机制,将selinux设置为disabled vi ...
selenium学习路线
1.配置你的测试环境,针对你所学习语言,来配置你相应的selenium 测试环境.selenium 好比定义的语义---"问好",假如你使用的是中文,为了表术问好,你的写法是& ...

Spark SQL和CSl

1

2

3

4

Spark SQL和CSl的更多相关文章

随机推荐

热门专题