spark 三种数据集的关系（二）

一个Dataset是一个分布式的数据集，而且它是一个新的接口，这个新的接口是在Spark1.6版本里面才被添加进来的，所以要注意DataFrame是先出来的，然后在1.6版本才出现的Dataset，提供了哪些优点呢？比如强类型，支持lambda表达式，还有还提供了sparksql执行引擎的一些优化，DataFrame里面大部分东西在Dataset里面都是能用的，Dataset它能够通过哪些方式构建？一个是jvm对象，还有一些函数表达式比如map、flatMap、filter等等。这个Dataset可以使用在java和scala语言里面，注意python暂时还不能支持Dataset的API。

1.关于类型方面：

DataSet是带有类型的（typed），例：DataSet<Persono>。取得每条数据某个值时，使用类似person.getName()这样的API，可以保证类型安全。

而DataFrame是无类型的，是以列名来作处理的，所以它的定义为DataSet<Row>。取得每条数据某个值时，可能要使用row.getString(0)或col("department")这样的方式来取得，无法知道某个值的具体的数据类型。

// Load a text file and interpret each line as a java.lang.String

val ds = sqlContext.read.text("/home/spark/1.6/lines").as[String]

//dataframe

val result = ds

  .flatMap(_.split(" "))               // Split on whitespace

  .filter(_ != "")                     // Filter empty words

  .toDF()                              // Convert to DataFrame to perform aggregation / sorting

  .groupBy($"value")                   // Count number of occurences of each word

  .agg(count("*") as "numOccurances")

  .orderBy($"numOccurances" desc)      // Show most common words first

//DataSet,完全使用scala编程，不要切换到DataFrame

val wordCount =

  ds.flatMap(_.split(" "))

    .filter(_ != "")

    .groupBy(_.toLowerCase()) // Instead of grouping on a column expression (i.e. $"value") we pass a lambda function

    .count()

DataFrame和DataSet可以相互转化，df.as[ElementType]这样可以把DataFrame转化为DataSet，ds.toDF()这样可以把DataSet转化为DataFrame。

2.关于schema:

DataFrame带有schema，而DataSet没有schema。schema定义了每行数据的“数据结构”，就像关系型数据库中的“列”，schema指定了某个DataFrame有多少列。

3.数据类型检查

Dataset可以认为是DataFrame的一个特例，主要区别是Dataset每一个record存储的是一个强类型值而不是一个Row，DataSet可以在编译时检查类型。

4.新的概念Encoder

DataSet结合了RDD和DataFrame的优点, 并带来的一个新的概念Encoder

当序列化数据时, Encoder产生字节码与off-heap进行交互, 能够达到按需访问数据的效果, 而不用反序列化整个对象. Spark还没有提供自定义Encoder的API, 但是未来会加入.

spark 三种数据集的关系（二）的更多相关文章

spark 三种数据集的关系（一）
Catalyst Optimizer: Dataset 数据集仅可用Scala或Java.但是,我们提供了以下上下文来更好地理解Spark 2.0的方向数据集是在2015年作为Apache Spark ...
spark三种连接Join
本文主要介绍spark join相关操作. 讲述spark连接相关的三个方法join,left-outer-join,right-outer-join,在这之前,我们用hiveSQL先跑出了结果以方便 ...
servlet三种实现方式之二继承GenericServlet开发
servlet有三种实现方式: 1.实现servlet接口 2.继承GenericServlet 3.通过继承HttpServlet开发servlet 第二种示例代码如下(已去掉包名): //这是第二 ...
guice基本使用,三种注入方式（二）
guice提供了强大的注入方式. 1.属性注入 2.构造器注入 3.set方式注入 1.属性注入: package com.ming.user.test; import com.google.inje ...
Spark:三种任务提交流程standalone、yarn-cluster、yarn-client
spark的runtime参考:Spark:Yarn-cluster和Yarn-client区别与联系浪尖分享资料 standalone Spark可以通过部署与Yarn的架构类似的框架来提供自己的集 ...
Spark三种部署方式
Spark学习笔记-三种属性配置详细说明【转】
相关资料:Spark属性配置 http://www.cnblogs.com/chengxin1982/p/4023111.html 本文出处:转载自过往记忆(http://www.iteblog.c ...
Apache Spark 2.0三种API的传说：RDD、DataFrame和Dataset
Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单.易用的APIs,支持跨多种语言(比如:Scala.Java.Python和R)来操作大数据. 本文主要 ...
Django-多对多关系的三种创建方式-forms组件使用-cookie与session-08
目录表模型类多对多关系的三种创建方式 django forms 组件登录功能手写推理过程整段代码可以放过来 forms 组件使用 forms 后端定义规则并校验结果 forms 前端渲染标签组件 ...

随机推荐

基于freescale i.Mx6（ARM）的阿里云oss调试记录
交叉编译阿里OSS调试记录 1.1 开通oss服务具体参考以下链接: https://help.aliyun.com/document_detail/31884.html?spm=a2c4g.111 ...
Python之数据库
Python之数据库: 1. Mysql 2. pymysql 3. SQLAlchemy Mysql 一.概述什么是数据库 ? 答:数据的仓库,如:在ATM的示例中我们创建了一个 db 目录,称其 ...
ABP领域层定义仓储并实现
原文作者:圣杰原文地址:ABP入门系列(3)——领域层定义仓储并实现在原文作者上进行改正,适配ABP新版本.内容相同一.先来介绍下仓储仓储(Repository): 仓储用来操作数据库进行数据 ...
19牛客暑期多校 round1 A 有关笛卡尔树的结论
题目传送门//res tp nowcoder 分析定理:B1~B2当且仅当B1与B2有同构的笛卡尔树. (B₁~B₂ iff B₁ and B₂ have isomorphic Cartesian ...
MFC控件使用大全
https://blog.csdn.net/daoming1112/article/details/54698113
虚拟机(Vmware)安装ubuntu18.04和配置调整（三）
三.ubuntu安装软件 1.安装常用软件 python程序员: $ sudo apt install ipython $ sudo apt install ipython3 $ sudo a ...
springboot2.0结合freemarker生成静态化页面
目录 1. pom.xml配置 2. application.yml配置 3. 使用模板文件静态化 3.1 创建测试类,编写测试方法 3.2 使用模板字符串静态化使用freemarker将页面生成h ...
iView组件Tabs嵌套使用
<Tabs name="tab" value="a"> <TabPane label="标签a" name="a ...
怎样使用 v-if 实现 html 元素的显示 / 隐藏?
1. 首先, 指令后的引号内是可以写 js 表达式的, 这点很重要. v-if 的用法很简单, 只需要给 v-if = " " 的引号内放一个布尔值即可. 注意: v-if 的 ...
大数据学习（3）- redis集群
安装方法摘自 http://www.redis.cn/topics/cluster-tutorial.html 这个方法为简单版的方法,在原文的基础上,我加了一点参数,其他参数配置可以请教其他大神搭 ...

spark 三种数据集的关系（二）

spark 三种数据集的关系（二）的更多相关文章

随机推荐

热门专题