1 简述

spark中的RDD是一个分布式的元素集合。

在spark中,对数据的所有操作不外乎创建RDD,转化RDD以及调用RDD操作进行求值,而这些操作,spark会自动将RDD中的数据分发到集群上,并将操作并行执行。

2 创建 RDD

创建RDD分两种:读取外部数据集,在程序中对一个集合进行并行化。

2.1 读取外部数据集:

常用的方式是读取外部的数据集,比如文本文件读入为一个RDD:

scalac版:

  1. val lines = sc.textFile("D:\workspace\scala_workspace\demo.txt")

java版:

  1. JavaRDD<String> lines = sc.textFile("D:\workspace\java_workspace\demo.txt");

2.2 在程序中对集合进行并行化:

最简单的方法是把集合传给SparkContext中的parallelize()方法:

scalac版:

  1. val lines = sc.parallelize(["a", "b"])

java版:

  1. JavaRDD<String> lines = sc.parallelize(Arrays.asList("a", "b"));

3 转化操作

RDD的转化操作是返回新的RDD的操作。

假设有一个日文件log.txt,希望筛选出包含error的记录。使用rdd的filter()方法如下操作:

scalac版:

  1. val rdd = sc.textFile("log.txt")
  2. val errorRDD = rdd .filter(line => line.contains("error"))

java版:

  1. JavaRDD<String> rdd = sc.textFile("log.txt");
  1. JavaRDD<String> errorRDD = rdd.filter (
  2. new Function<String, Boolean>() {
  3. public Boolean call(String str) {
  4. return str.contains("errors");
  5. }
  6. }
  7. )

注意:filter()方法不会改变已有的rdd中的数据。

4 向spark 传递函数

4.1 scala

在Scala中,我们可以传递定义的内联函数,引用方法:

  1. class SearchFunctions(val query: String) {
  2.   def isMatch(s: String): Boolean = {
  3.     s.contains(query)
  4.   }
  5.   def getMatchesFunctionReference(rdd: RDD[String]): RDD[String] = {
  6.     rdd.map(isMatch)
  7.   }
  8.   def getMatchesFieldReference(rdd: RDD[String]): RDD[String] = {
  9.     rdd.map(x => x.split(query))
  10.   }
  11.   def getMatchesNoReference(rdd: RDD[String]): RDD[String] = {
  12.     val query_ = this.query
  13.     rdd.map(x => x.split(query_))
  14.   }
  15. }

4.2 java

  1. class Contains implements Function<String, Boolean>() {
  2. private String query;
  3.  
  4. public Contains(String query) { this.query = query; }
  5.  
  6. public Boolean call(String x) { return x.contains(query); }
  7. }
  8.  
  9. RDD<String> errors = lines.filter(new Contains("error"));

spark入门(二)RDD基础操作的更多相关文章

  1. 小白学 Python 数据分析(17):Matplotlib(二)基础操作

    人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础 小白学 Python 数据分析(2):Pandas (一)概述 小白学 Python 数据分析(3):P ...

  2. Spark学习摘记 —— RDD行动操作API归纳

    本文参考 参考<Spark快速大数据分析>动物书中的第三章"RDD编程",前一篇文章已经概述了转化操作相关的API,本文再介绍行动操作API 和转化操作API不同的是, ...

  3. Spark学习摘记 —— RDD转化操作API归纳

    本文参考 在阅读了<Spark快速大数据分析>动物书后,大概了解到了spark常用的api,不过书中并没有给予所有api具体的示例,而且现在spark的最新版本已经上升到了2.4.5,动物 ...

  4. Elasticsearch学习系列二(基础操作)

    本文将分为3块讲解Es的基础操作.分别为:索引(index).映射(mapping).文档(document). 索引操作 创建索引库 语法: PUT /索引名称{ "settings&qu ...

  5. spark Pair RDD 基础操作

    下面是Pair RDD的API讲解 转化操作 reduceByKey:合并具有相同键的值: groupByKey:对具有相同键的值进行分组: keys:返回一个仅包含键值的RDD: values:返回 ...

  6. Zookeeper入门(二)之基础

    在深入了解ZooKeeper的运作之前,让我们来看看ZooKeeper的基本概念.本文主要包含如下内容:1.Architecture(架构)2.Hierarchical namespace(层次命名空 ...

  7. spark 学习(二) RDD及共享变量

    声明:本文基于spark的programming guide,并融合自己的相关理解整理而成      Spark应用程序总是包括着一个driver program(驱动程序),它运行着用户的main方 ...

  8. Kinect for Windows SDK开发入门(二):基础知识 上

    原文来自:http://www.cnblogs.com/yangecnu/archive/2012/03/31/KinectSDK_Application_Fundamentals_Part1.htm ...

  9. Linux 入门教程:基础操作 01

    1.1 实验内容 实验楼环境介绍 常用 Shell 命令及快捷键 Linux 使用小技巧 1.2 实验知识点 Linux 基本命令 通配符的使用 查看帮助文档 终端的概念 通常我们在使用 Linux ...

随机推荐

  1. android 随着认识的去除率EditText(它配备了防抖效果)

    Android它没有提供的类似至ios自带的输入框效果清晰(ios简单地只加属性可实现).因此,Android其中 我们要如何实现就需要这种效果用自己的定义的控件实现. 思路:能够使用一个Linear ...

  2. 【iOS发展-49】的插件-插件该文档的凝视VVDocumenter安装与使用

    文件凝视是/**   */.快捷键///. 但是,这需要安装插件.VVDocumenter. 下载链接:https://github.com/onevcat/VVDocumenter-Xcode (1 ...

  3. Delphi中返回类型为string的函数的一个陷阱(不是很懂)

    如果类的一个成员函数的返回值是string类型,需要注意一个问题 其返回值可能是错误的 例如函数的实现如下 function GetString( s: string ): string;begin  ...

  4. 【windows】常见的系统环境变量,如%appdata%表示什么意思

    原文:[windows]常见的系统环境变量,如%appdata%表示什么意思 1.介绍 %appdata%就代表了C:Users\用户名\AppData\Roaming这个文件夹. “%”是系统变量的 ...

  5. C++得到当前进程所占用的内存

    原文地址:C++得到当前进程所占用的内存作者:雪碧狗 使用SDK的PSAPI (Process Status Helper)中的BOOL GetProcessMemoryInfo(  HANDLE P ...

  6. Windows 10开发基础——网络编程

    主要内容: HttpClient类 Socket通信 WCF通信 HttpClient类      在UWP中可以用来进行网络通信的HttpClient类有两个,System.Net.Http.Htt ...

  7. 零元学Expression Blend 4 - Chapter 38 看如何使用Clip修出想要的完美曲线(下)

    原文:零元学Expression Blend 4 - Chapter 38 看如何使用Clip修出想要的完美曲线(下) 你可以把Clip想成是一个遮罩,运用遮罩达到我们想要的效果 所以在这里我们把文字 ...

  8. The specified type member 'IsLock' is not supported in LINQ to Entities. Only initializers, entity members, and entity navigation properties are supported.

    var query = from C in objDb.GetDb<A>() join a in objDb.GetDb<B>().Where(m => m.Comput ...

  9. Mac App Store应用签名和pkg签名,查看签名

    App签名 只有用苹果颁发的证书签名的应用才能在App Store上进行销售,所以我们开发的应用必须打上签名. 签名有两种方式,一是使用Xcode,在配置里面设置签名,编译出来的app就有了签名:二是 ...

  10. Qt移动开发大部分的场景基本上实现没问题,listview支持刷新3000~5000的实时数据没有任何压力(QML的几个大型应用)

    作者:xq zh链接:https://www.zhihu.com/question/29636221/answer/47265577来源:知乎著作权归作者所有,转载请联系作者获得授权. 不知道vs移动 ...