虽说,spark我也不陌生,之前一直用python跑的spark,基本的core和SQL操作用的也是比较熟练。但是这一切的基础都是在RDD上进行操作,即使是进行SQL操作也是将利用SpaekContext类中的textFile方法读取txt文件返回RDD对象,然后使用SQLContext实例化载利用函数createDataFrame将格式化后的数据转化为dataFrame或者利用createDataset将数据转换为dataset。真不是一般的麻烦。。。话不多说,比如以下python代码示例:

 # -*-coding:utf-8-*-
# Created by wuying on 2017/3/28 from pyspark.sql import Row
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql.functions import * def create_df(sqlContext, raw_data):
"""
:param row_data: original data
:return: data frame
"""
lineLists = raw_data.map(lambda x: x.split(','))
   //筛选部分有用的数据字段作为表头
row_data = lineLists.map(lambda x: Row(
recordCode = x[0],
logicCode = x[1],
deviceCode = x[2],
compId = x[2][:3],
siteId = x[2][:6],
transType = x[4],
cardTime = x[8],
compName = x[12],
siteName = x[13],
carCode = x[14]
)
)
SZT_df = sqlContext.createDataFrame(row_data)
SZT_df.registerTempTable("SZT_df") return SZT_df if __name__ == '__main__':
# Create DataFrame
# Load data from hdfs
inputFile = "P_GJGD_SZT_20170101" //数据来源于地铁打卡
sc = SparkContext(master="local[*]", appName="AppTest", pyFiles=["prepared.py"])
raw_data = sc.textFile(inputFile)
sqlContext = SQLContext(sc)
SZT_df = create_df(sqlContext, raw_data)
print SZT_df.dtypes

  1、RDD,英文全称是“Resilient Distributed Dataset”,即弹性分布式数据集,听起来高大上的名字,简而言之就是大数据案例下的一种数据对象,RDD这个API在spark1.0中就已经存在,因此比较老的版本的tutorial中用的都是RDD作为原始数据处理对象,而在spark-shell中已经实例化好的sc对象一般通过加载数据产生的RDD这个对象的基础上进行数据分析。当然,打草稿情况(未接触企业级系统)下RDD API还是足够我们对一般的数据进行转换,清洗以及计数,里面有较为丰富的函数可以调用,比如常用的map, filter, groupBy等等,具体实现见pyspark。所以,这个RDD的简单安全且易于理解使得很多人都是用RDD打开spark这个高大上之神器的大门(包括我~~)。

  首先,它不好操作,以我目前的知识水平而言,我宁愿选dataFrame。因为dataFrame方便且高速,比如SQL语句,自从用了SQL,再也不想一步步map,一步步filter了。其次,据说,RDD无论是在集群上执行任务还是存储到硬盘上。它都会默认使用java对象序列化(提高数据操作的性能),而序列化单个java和scala对象的开销过大,并且需要将数据及其结构在各节点之间传输,而生成和销毁个别对象需要进行垃圾收集这期间的开销也非常大。

  2、DataFrame。说到dataFrame,我就想到R和pandas(python)中常用的数据框架就是dataFrame,估计后来spark的设计者从R和pandas这个两个数据科学语言中的数据dataFrame中吸取灵感,不同的是dataFrame是从底层出发为大数据应用设计出的RDD的拓展,因此它具有RDD所不具有的几个特性(Spark 1.3以后):

  • 处理数据能力从千字节到PB量级不等
  • 支持各种数据格式和存储系统
  • 通过SPARK SQL Catalyst优化器进行高效率优化和代码生成
  • 通过SPARK对所有大数据工具基础架构进行无缝集成
  • 提供Python,Scala,Java 和R的api

  简而言之,我们可以将dataFrame当作是关系数据库中表或者是R或者Python中的dataFrame数据结构。实际上,有了dataFrame我们相当于spark可以管理数据视图,以后传输数据只要在各个节点穿数据数据而不需要传数据结构,这种方式比java序列化有效的多。

  直接上个scala代码瞅瞅:

 package cn.sibat.metro
import org.apache.spark.sql.SparkSession /**
* Created by wing1995 on 2017/4/20
*/ object Test {
def main(args: Array[String]) = {
val spark = SparkSession
.builder()
.config("spark.sql.warehouse.dir", "file:/file:E:/bus")
.appName("Spark SQL Test")
.master("local[*]")
.getOrCreate() import spark.implicits._ val df = spark.sparkContext
.textFile("E:\\trafficDataAnalysis\\SZTDataCheck\\testData.txt")
.map(_.split(","))
.map(line => SZT(line(0), line(1), line(2), line(2).substring(0, 3), line(2).substring(0, 6), line(4), line(8), line(12), line(13), line(14)))
.toDF()
df.show()
df.printSchema()
}
} case class SZT(recordCode: String, logicCode: String, terminalCode: String, compId: String, siteId: String,
transType: String, cardTime: String, compName: String, siteName: String, vehicleCode: String
)

  代码真是清新可人啊,直接SparkSession实例化然后再怎么转其他格式,怎么读其他数据都可以。。。

  3、Dataset(Spark 1.6)

  跟DataFrame很像,不是很熟悉,貌似是为了兼容SCALA中的RDD和JAVA的面向对象而设计,事实证明Scala在Spark中的优势是java取代不了的,即使java8已经做出不少改进。然而,Scala作为原生态语言,仍然是Spark使用者的主流。所以,接下来的博客陆续以Scala为主。

  个人是比较喜欢简洁而有趣的Scala,为数据科学而设计!

spark2.0系列《一》—— RDD VS. DataFrame VS. DataSet的更多相关文章

  1. Apache Spark 2.0三种API的传说:RDD、DataFrame和Dataset

    Apache Spark吸引广大社区开发者的一个重要原因是:Apache Spark提供极其简单.易用的APIs,支持跨多种语言(比如:Scala.Java.Python和R)来操作大数据. 本文主要 ...

  2. RDD、DataFrame、Dataset

    RDD是Spark建立之初的核心API.RDD是不可变分布式弹性数据集,在Spark集群中可跨节点分区,并提供分布式low-level API来操作RDD,包括transformation和actio ...

  3. SparkSQL 中 RDD 、DataFrame 、DataSet 三者的区别与联系

    一.SparkSQL发展: Shark是一个为spark设计的大规模数据仓库系统,它与Hive兼容      Shark建立在Hive的代码基础上,并通过将Hive的部分物理执行计划交换出来(by s ...

  4. 谈谈RDD、DataFrame、Dataset的区别和各自的优势

    在spark中,RDD.DataFrame.Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势 共性: 1.RDD.DataFrame.Dataset全都是spar ...

  5. RDD、DataFrame、Dataset三者三者之间转换

    转化: RDD.DataFrame.Dataset三者有许多共性,有各自适用的场景常常需要在三者之间转换 DataFrame/Dataset转RDD: 这个转换很简单 val rdd1=testDF. ...

  6. Spark RDD、DataFrame和DataSet的区别

    版权声明:本文为博主原创文章,未经博主允许不得转载.   目录(?)[+]   转载请标明出处:小帆的帆的专栏 RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类 ...

  7. 且谈 Apache Spark 的 API 三剑客:RDD、DataFrame 和 Dataset

    作者:Jules S. Damji 译者:足下 本文翻译自 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets ,翻译已 ...

  8. Spark SQL 之 RDD、DataFrame 和 Dataset 如何选择

    引言 Apache Spark 2.2 以及以上版本提供的三种 API - RDD.DataFrame 和 Dataset,它们都可以实现很多相同的数据处理,它们之间的性能差异如何,在什么情况下该选用 ...

  9. RDD、DataFrame和DataSet的区别

    原文链接:http://www.jianshu.com/p/c0181667daa0 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同. RDD ...

  10. RDD、DataFrame和DataSet

    简述 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema.RDD是分布式的 Java对象的集 ...

随机推荐

  1. NDK(三方库引入、Mk文件)

    NDK笔记-----第三方库引入 一.字符操作: 1 二.NDK*(JNI)对象操作: 2 1.C++调用java对象 3 三.Android.mk说明: 3 四.Application.mk说明 3 ...

  2. 实用 .htaccess 用法大全

    这里收集的是各种实用的 .htaccess 代码片段,你能想到的用法几乎全在这里. 免责声明: 虽然将这些代码片段直接拷贝到你的 .htaccess 文件里,绝大多数情况下都是好用的,但也有极个别情况 ...

  3. linux ip 转发设置 ip_forward

    工作原理: 内网主机向公网发送数据包时,由于目的主机跟源主机不在同一网段,所以数据包暂时发往内网默认网关处理,而本网段的主机对此数据包不做任何回应.由于源主机ip是私有的,禁止在公网使用,所以必须将数 ...

  4. Chrome 33+ 自建 扩展 实现 custom.css

    http://bbs.kafan.cn/thread-1674386-1-2.html

  5. z-index失效的原因

    在做的过程中,发现了一个很简单却又很多人应该碰到的问题,设置Z-INDEX属性无效.在CSS中,只能通过代码改变层级,这个属性就是z-index,要让z-index起作用有个小小前提,就是元素的pos ...

  6. QTP自动化测试框架课程的目标

    QTP自动化测试框架课程的目标 随着技术发展演变,qtp自动化测试工具有逐渐被其他工具和技术替换的趋势,所以我们三个POPTEST合伙人决定把qtp自动化测试的一套课程开放免费,这套qtp自动化测试课 ...

  7. Android开发艺术2之Activity的启动模式

    Activity是Android的四大组件之一,他的重要性毋庸置疑,对于这么重要的一个组件,我们首先要知道这些都是由系统进行管理和回调的,要理解Activity的启动模式,我们首先来了解一下Andro ...

  8. 收集下shell使用笔记

    让进程转入后台: Ctrl + z 将进程转到前台: fg 产生随机的十六进制数,其中n是字符数: openssl rand -hex n 截取前5个字符: ${variable::} 一次创建多个目 ...

  9. JavaScript基础学习(一)—JavaScript简介

    一.JavaScript概述      JavaScript是一种专为与网页交互的脚本语言,由三部分组成.           ECMAScript      核心,提供核心语言功能.      BO ...

  10. js alert(“”)弹框 自定义样式

    首先用css渲染一个样式 #msg{ height: 2rem; text-align: center; position: fixed; top: 50%; margin-top: -1rem; l ...