spark入门(二)RDD基础操作
1 简述
spark中的RDD是一个分布式的元素集合。
在spark中,对数据的所有操作不外乎创建RDD,转化RDD以及调用RDD操作进行求值,而这些操作,spark会自动将RDD中的数据分发到集群上,并将操作并行执行。
2 创建 RDD
创建RDD分两种:读取外部数据集,在程序中对一个集合进行并行化。
2.1 读取外部数据集:
常用的方式是读取外部的数据集,比如文本文件读入为一个RDD:
scalac版:
- val lines = sc.textFile("D:\workspace\scala_workspace\demo.txt")
java版:
- JavaRDD<String> lines = sc.textFile("D:\workspace\java_workspace\demo.txt");
2.2 在程序中对集合进行并行化:
最简单的方法是把集合传给SparkContext中的parallelize()方法:
scalac版:
- val lines = sc.parallelize(["a", "b"])
java版:
- JavaRDD<String> lines = sc.parallelize(Arrays.asList("a", "b"));
3 转化操作
RDD的转化操作是返回新的RDD的操作。
假设有一个日文件log.txt,希望筛选出包含error的记录。使用rdd的filter()方法如下操作:
scalac版:
- val rdd = sc.textFile("log.txt")
- val errorRDD = rdd .filter(line => line.contains("error"))
java版:
- JavaRDD<String> rdd = sc.textFile("log.txt");
- JavaRDD<String> errorRDD = rdd.filter (
- new Function<String, Boolean>() {
- public Boolean call(String str) {
- return str.contains("errors");
- }
- }
- )
注意:filter()方法不会改变已有的rdd中的数据。
4 向spark 传递函数
4.1 scala
在Scala中,我们可以传递定义的内联函数,引用方法:
- class SearchFunctions(val query: String) {
- def isMatch(s: String): Boolean = {
- s.contains(query)
- }
- def getMatchesFunctionReference(rdd: RDD[String]): RDD[String] = {
- rdd.map(isMatch)
- }
- def getMatchesFieldReference(rdd: RDD[String]): RDD[String] = {
- rdd.map(x => x.split(query))
- }
- def getMatchesNoReference(rdd: RDD[String]): RDD[String] = {
- val query_ = this.query
- rdd.map(x => x.split(query_))
- }
- }
4.2 java
- class Contains implements Function<String, Boolean>() {
- private String query;
- public Contains(String query) { this.query = query; }
- public Boolean call(String x) { return x.contains(query); }
- }
- RDD<String> errors = lines.filter(new Contains("error"));
spark入门(二)RDD基础操作的更多相关文章
- 小白学 Python 数据分析(17):Matplotlib(二)基础操作
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...
- Spark学习摘记 —— RDD行动操作API归纳
本文参考 参考<Spark快速大数据分析>动物书中的第三章"RDD编程",前一篇文章已经概述了转化操作相关的API,本文再介绍行动操作API 和转化操作API不同的是, ...
- Spark学习摘记 —— RDD转化操作API归纳
本文参考 在阅读了<Spark快速大数据分析>动物书后,大概了解到了spark常用的api,不过书中并没有给予所有api具体的示例,而且现在spark的最新版本已经上升到了2.4.5,动物 ...
- Elasticsearch学习系列二(基础操作)
本文将分为3块讲解Es的基础操作.分别为:索引(index).映射(mapping).文档(document). 索引操作 创建索引库 语法: PUT /索引名称{ "settings&qu ...
- spark Pair RDD 基础操作
下面是Pair RDD的API讲解 转化操作 reduceByKey:合并具有相同键的值: groupByKey:对具有相同键的值进行分组: keys:返回一个仅包含键值的RDD: values:返回 ...
- Zookeeper入门(二)之基础
在深入了解ZooKeeper的运作之前,让我们来看看ZooKeeper的基本概念.本文主要包含如下内容:1.Architecture(架构)2.Hierarchical namespace(层次命名空 ...
- spark 学习(二) RDD及共享变量
声明:本文基于spark的programming guide,并融合自己的相关理解整理而成 Spark应用程序总是包括着一个driver program(驱动程序),它运行着用户的main方 ...
- Kinect for Windows SDK开发入门(二):基础知识 上
原文来自:http://www.cnblogs.com/yangecnu/archive/2012/03/31/KinectSDK_Application_Fundamentals_Part1.htm ...
- Linux 入门教程:基础操作 01
1.1 实验内容 实验楼环境介绍 常用 Shell 命令及快捷键 Linux 使用小技巧 1.2 实验知识点 Linux 基本命令 通配符的使用 查看帮助文档 终端的概念 通常我们在使用 Linux ...
随机推荐
- android 随着认识的去除率EditText(它配备了防抖效果)
Android它没有提供的类似至ios自带的输入框效果清晰(ios简单地只加属性可实现).因此,Android其中 我们要如何实现就需要这种效果用自己的定义的控件实现. 思路:能够使用一个Linear ...
- 【iOS发展-49】的插件-插件该文档的凝视VVDocumenter安装与使用
文件凝视是/** */.快捷键///. 但是,这需要安装插件.VVDocumenter. 下载链接:https://github.com/onevcat/VVDocumenter-Xcode (1 ...
- Delphi中返回类型为string的函数的一个陷阱(不是很懂)
如果类的一个成员函数的返回值是string类型,需要注意一个问题 其返回值可能是错误的 例如函数的实现如下 function GetString( s: string ): string;begin ...
- 【windows】常见的系统环境变量,如%appdata%表示什么意思
原文:[windows]常见的系统环境变量,如%appdata%表示什么意思 1.介绍 %appdata%就代表了C:Users\用户名\AppData\Roaming这个文件夹. “%”是系统变量的 ...
- C++得到当前进程所占用的内存
原文地址:C++得到当前进程所占用的内存作者:雪碧狗 使用SDK的PSAPI (Process Status Helper)中的BOOL GetProcessMemoryInfo( HANDLE P ...
- Windows 10开发基础——网络编程
主要内容: HttpClient类 Socket通信 WCF通信 HttpClient类 在UWP中可以用来进行网络通信的HttpClient类有两个,System.Net.Http.Htt ...
- 零元学Expression Blend 4 - Chapter 38 看如何使用Clip修出想要的完美曲线(下)
原文:零元学Expression Blend 4 - Chapter 38 看如何使用Clip修出想要的完美曲线(下) 你可以把Clip想成是一个遮罩,运用遮罩达到我们想要的效果 所以在这里我们把文字 ...
- The specified type member 'IsLock' is not supported in LINQ to Entities. Only initializers, entity members, and entity navigation properties are supported.
var query = from C in objDb.GetDb<A>() join a in objDb.GetDb<B>().Where(m => m.Comput ...
- Mac App Store应用签名和pkg签名,查看签名
App签名 只有用苹果颁发的证书签名的应用才能在App Store上进行销售,所以我们开发的应用必须打上签名. 签名有两种方式,一是使用Xcode,在配置里面设置签名,编译出来的app就有了签名:二是 ...
- Qt移动开发大部分的场景基本上实现没问题,listview支持刷新3000~5000的实时数据没有任何压力(QML的几个大型应用)
作者:xq zh链接:https://www.zhihu.com/question/29636221/answer/47265577来源:知乎著作权归作者所有,转载请联系作者获得授权. 不知道vs移动 ...