sparksql笔记

1、sparksql是Spark用来处理结构化数据的一个模块，它提供了两个抽象DataFrame和DataSet并且作为分布式SQL查询引擎的作用。

Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序的复杂性，由于MapReduce这种计算模型执行效率比较慢。所有Spark SQL的应运而生，它是将Spark SQL转换成RDD，然后提交到集群执行，执行效率非常快

2、DataFrame，是数据结构，类似数据库表，Dataframe的劣势在于在编译期缺少类型安全检查，导致运行时出错。

与RDD类似，DataFrame也是一个分布式数据容器。然而DataFrame更像传统数据库的二维表格，除了数据以外，还记录数据的结构信息，即schema。
同时，与Hive类似，DataFrame也支持嵌套数据类型（struct、array和map）。从API易用性的角度上看，DataFrame API提供的是一套高层的关系操作，比函数式的RDD API要更加友好，门槛更低。
由于与R和Pandas的DataFrame类似，Spark DataFrame很好地继承了传统单机数据分析的开发体验

DataFrame是为数据提供了Schema的视图。可以把它当做数据库中的一张表来对待

DataFrame也是懒执行的。

性能上比RDD要高： 定制化内存管理，数据以二进制的方式存在于非堆内存，节省了大量空间之外，还摆脱了GC的限制

3、DataSet，它是DataFrame的扩展，既具有类型安全检查也具有Dataframe的查询优化特性。

 1）是Dataframe API的一个扩展，是Spark最新的数据抽象

 2）用户友好的API风格，既具有类型安全检查也具有Dataframe的查询优化特性。

 3）Dataset支持编解码器，当需要访问非堆上的数据时可以避免反序列化整个对象，提高了效率。

 4）样例类被用来在Dataset中定义数据的结构信息，样例类中每个属性的名称直接映射到DataSet中的字段名称。

 5） Dataframe是Dataset的特列，DataFrame=Dataset[Row] ，所以可以通过as方法将Dataframe转换为Dataset。

     Row是一个类型，跟Car、Person这些的类型一样，所有的表结构信息我都用Row来表示。

 6）DataSet是强类型的。比如可以有Dataset[Car]，Dataset[Person].

 7）DataFrame只是知道字段，但是不知道字段的类型，所以在执行这些操作的时候是没办法在编译的时候检查是否类型失败的，

    比如你可以对一个String进行减法操作，在执行的时候才报错，而DataSet不仅仅知道字段，而且知道字段类型，

    所以有更严格的错误检查。就跟JSON对象和类对象之间的类比。

参考demo：https://github.com/asker124143222/spark-demo

示例：

package com.home.spark

import org.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object Ex_sparkSql {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf(true).setMaster("local[*]").setAppName("spark session")

    val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()

    val df: DataFrame = spark.read.json("input/userinfo.json")

    // df.show()

    df.createOrReplaceTempView("userinfo")

    spark.sql("select * from userinfo where age=30").show()

    //通过sparkSession生成rdd

    val rdd: RDD[(String, String)] = spark.sparkContext.textFile("input/1.txt").map(line => {

      val s = line.split(" ")

      (s(0), s(1))

    })

//    rdd.collect().foreach(println)

    //rdd转换成df或者ds需要SparkSession实例的隐式转换

    //导入隐式转换，注意这里的spark不是包名，而是SparkSession的对象名

    import spark.implicits._

    //rdd转成DataFrame

    val frame: DataFrame = rdd.toDF("name","value")

    //DataFrame转成DataSet

    val ds: Dataset[MyClass] = frame.as[MyClass]

    //ds转成df

    val df2: DataFrame = ds.toDF()

    //df转成rdd

    val rdd2 : RDD[Row]= df2.rdd

    //打印

    rdd2.foreach(row=>{

      println(row.getString(0)+"  -- "+row.getString(1))

    })

    val myRDD: RDD[MyClass] = rdd.map {

      case (name, value) => {

        MyClass(name, value)

      }

    }

    val myDS = myRDD.toDS()

    println("---"*10)

    myDS.show()

    spark.stop()

  }

}

case class MyClass(name:String,value:String)

sparksql笔记的更多相关文章

SparkSQL学习笔记
概述冠状病毒来临,宅在家中给国家做贡献之际,写一篇随笔记录SparkSQL的学习笔记,目的有二,一是记录整理之前的知识作为备忘录,二是分享技术,大家共同进步,有问题也希望大家不吝赐教.总体而言,大数 ...
【大数据】SparkSql学习笔记
第1章 Spark SQL概述 1.1 什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块,它提供了2个编程抽象:DataFrame和 DataSet,并且作为分布式 ...
SparkSql学习笔记（包含IDEA编写的本地代码）
Spark SQL and DataFrame 1.为什么要用Spark Sql 原来我们使用Hive,是将Hive Sql 转换成Map Reduce 然后提交到集群上去执行,大大简化了编写MapR ...
spark-sql使用笔记
如何使用hive的udf 可以使用spark-sql --jars /opt/hive/udf.jar,指定udf的路径还可以在spark-default.conf里指定spark.jars /op ...
spark复习笔记(7):sparkSQL
一.saprkSQL模块,使用类sql的方式访问Hadoop,实现mr计算,底层使用的是rdd 1.hive //hadoop mr sql 2.phenoix //hbase上构建sql的交互过 ...
大数据笔记（三十）——一篇文章读懂SparkSQL
Spark SQL:类似Hive ======================================================= 一.Spark SQL基础 1.什么是Spark SQ ...
【Spark深入学习 -16】官网学习SparkSQL
----本节内容-------1.概览 1.1 Spark SQL 1.2 DatSets和DataFrame2.动手干活 2.1 契入点:SparkSess ...
Spark学习笔记——读写Hbase
1.首先在Hbase中建立一张表,名字为student 参考 Hbase学习笔记——基本CRUD操作一个cell的值,取决于Row,Column family,Column Qualifier和Ti ...
Spark Streaming笔记
Spark Streaming学习笔记 liunx系统的习惯创建hadoop用户在hadoop根目录(/home/hadoop)上创建如下目录app 存放所有软件的安装目录 app/tmp 存放临时文 ...

随机推荐

note4
QT中视图（setViewport）和窗口（setWindow）小总结
参考博客: https://blog.csdn.net/weixin_39583140/article/details/92798127 https://blog.csdn.net/u01244271 ...
C# webbrowser专题
C# .Net 2.0实例学习:WebBrowser页面与WinForm交互技巧 2 Study Case :高亮显示上一个例子中我们学会了查找文本——究跟到底,对Web页面还是只读不写.那么,如果 ...
Houdini学习笔记——【一】散落苹果
[案例一]散落的苹果 0.渲染 1.sop使用 - 苹果主体:curve绘制刨面曲线,revolve车削得到苹果主体,uvtexture来调整uv,convert继续转换为polygon,fuse缝合 ...
tarjan复习笔记
tarjan复习笔记 (关于tarjan读法,优雅一点读塔洋,接地气一点读塔尖) 0. 连通分量有向图: 强连通分量(SCC)是个啥就是一张图里面两个点能互相达到,那么这两个点在同一个强连通分量里 ...
jenkins配置到gitlab拉代码
参照: jenkins 从git拉取代码-简明扼要 https://www.cnblogs.com/jwentest/p/7065783.html 持续集成①安装部署jenkins从git获取代码-超 ...
mongodb写入策略(WriteConcern)
写入策略(WriteConcern) mongodb的写入策略有多种方式,写入策略是指当客户端发起写入请求后,数据库什么时候给应答,mongodb有三种处理策略:客户端发出去的时候,服务器收到请求的时 ...
appium常见问题02_android内嵌H5页（webview）如何定位
现在大多数app都是由原生页面和内嵌H5(即webview)组成,app原生页面直接定位即可,那内嵌H5页面要如何定位呢. 相信大多数人用appium做自动化时都有遇到这个问题,小编总结了下工作中该问 ...
启动项目时出现Error: Node Sass does not yet support your current environment: Windows 64-bit with Unsupported runtime (72)
前几天趁假期重新装了一次系统,重新安装各种配置之后再启动项目的时候就报这个错误第一反应就是去搜这个错误怎么解决,搜来搜去基本上都是让我重新安装node-sass,但我重装node-sass的时候又出 ...
牛客在其他数都出现k次的数组中找到出现1次的数
题目链接:https://www.nowcoder.com/practice/26e46f1f5e0d48c4b9ba13fe3e8d0ec6?tpId=101&tqId=33216& ...

sparksql笔记

sparksql笔记的更多相关文章

随机推荐

热门专题