[DB] Spark Core (2)

RDD

WordCount处理流程

sc.textFile("/root/temp/data.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

调用任务过程

客户端将任务通过SparkContext对象提交给Manager
Manager将任务分配给Worker
客户端将任务提交给Worker

特性

由分区组成，每个分区运行在不同的worker上
通过算子（函数）处理每个分区中的数据
RDD之间存在依赖关系（宽依赖、窄依赖），根据依赖关系，划分任务的Stage（阶段）

创建

通过集合创建：SparkContext.parallelize
通过读取外部数据源：HDFS，本地目录

算子（函数）

Transformation：由一个RDD生成一个新的RDD。延时加载（计算）
- map(func)：对原来的RDD进行某种操作，返回一个新的RDD
- filter(func)：过滤
- flatMap(func)：压平，类似Map
- mapPartitions(func)：对RDD中的每个分区进行操作
- sample(withReplacement, fraction, seed)
- union(otherDataset)：集合操作
- distinct([numTasks])：去重
- groupByKey([numTasks])：聚合操作（分组）
- sortByKey([ascending],[numTasks])：排序（针对<key,value>）
- sortBy()
Action：对RDD计算出一个结果
- reduce(func)
- collect()：
- foreach(func)：类似map，但没有返回值

缓存

默认将RDD的数据缓存在内存中
提高性能
表示RDD可以被缓存，函数：persist 或 cache

容错

检查点（Checkpoint）
复习：HDFS中，由SecondaryNameNode进行日志的合并
一种容错机制，Lineage（血统）表示任务执行的声明周期（整个任务的执行过程）
血统越长，出错概率越大，出错时不需要从头计算，从最近检查点的位置往后计算即可
命令（本地模式和集群模式操作一样）：
- sc.setCheckpointDir("/root/temp/spark")：指定检查点文件保存目录
- rdd1.checkpoint：标识RDD可以生成检查点

依赖

单步WordCount程序：
- val rdd1 = sc.textFile("/root/temp/input/data.txt")
- val rdd2 = rdd1.flatMap(_.split(" "))
- val rdd3 = rdd2.map((_,1)) 完整: val rdd3 = rdd2.map((word:String)=>(word,1) )
- val rdd4 = rdd3.reduceByKey(_+_)
- rdd4.collect
根据依赖关系划分任务执行的Stage（阶段）
宽依赖（类似“超生”）：多个RDD的分区依赖了同一个父RDD分区（左父右子），如groupBy
窄依赖（类似“独生子女”）：每个父RDD分区，最多被一个RDD的分区使用，如map
宽依赖是划分stage的依据

参考

官方API
http://spark.apache.org/docs/2.1.0/api/scala/index.html#org.apache.spark.package

[DB] Spark Core (2)的更多相关文章

[DB] Spark Core (1)
生态 Spark Core:最重要,其中最重要的是RDD(弹性分布式数据集) Spark SQL Spark Streaming Spark MLLib:机器学习算法 Spark Graphx:图计算 ...
[DB] Spark Core (3)
高级算子 mapPartitionWithIndex:对RDD中每个分区(有下标)进行操作,通过自己定义的一个函数来处理 def mapPartitionsWithIndex[U](f: (Int, ...
Spark Streaming揭秘 Day35 Spark core思考
Spark Streaming揭秘 Day35 Spark core思考 Spark上的子框架,都是后来加上去的.都是在Spark core上完成的,所有框架一切的实现最终还是由Spark core来 ...
【Spark Core】任务运行机制和Task源代码浅析1
引言上一小节<TaskScheduler源代码与任务提交原理浅析2>介绍了Driver側将Stage进行划分.依据Executor闲置情况分发任务,终于通过DriverActor向exe ...
TypeError: Error #1034: 强制转换类型失败:无法将 mx.controls::DataGrid@9a7c0a1 转换为 spark.core.IViewport。
1.错误描述 TypeError: Error #1034: 强制转换类型失败:无法将 mx.controls::DataGrid@9aa90a1 转换为 spark.core.IViewport. ...
Spark Core
Spark Core DAG概念有向无环图 Spark会根据用户提交的计算逻辑中的RDD的转换(变换方法)和动作(action方法)来生成RDD之间的依赖关系,同时 ...
spark core （二）
一.Spark-Shell交互式工具 1.Spark-Shell交互式工具 Spark-Shell提供了一种学习API的简单方式, 以及一个能够交互式分析数据的强大工具. 在Scala语言环境下或Py ...
Spark Core 资源调度与任务调度（standalone client 流程描述）
Spark Core 资源调度与任务调度(standalone client 流程描述) Spark集群启动: 集群启动后,Worker会向Master汇报资源情况(实际上将Worker的资 ...
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
第0章预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark ...

随机推荐

最短路径(Dijskra算法）
声明:图片及内容基于:https://www.bilibili.com/video/BV16C4y1H7Zc?from=articleDetail 最短路径 Dijkstra算法原理数据结构核心 ...
Prometheus联邦
联邦使得一个 Prometheus 服务器可以从另一个 Prometheus 服务器提取选定的时序. 1. 使用场景 Prometheus 联邦有不同的使用场景.通常,联邦被用来实现可扩展的 Prom ...
Elasticsearch中最重要的文档CRUD要牢记
Elasticsearch文档CRUD要牢记转载参考:https://juejin.im/post/5ddbf298e51d4523053c42e7 在Elasticsearch中,文档(docum ...
树结构系列（三）：B树、B+树
树结构系列(三):B树.B+树文章首发于「陈树义」公众号及个人博客 shuyi.tech,欢迎访问更多有趣有价值的文章. 文章首发于「陈树义」公众号及个人博客 shuyi.tech 平衡二叉树的查找 ...
python3使用tracemalloc追踪mmap内存变化
技术背景在前面一篇博客中我们介绍了一些用python3处理表格数据的方法,其中重点包含了vaex这样一个大规模数据处理的方案.这个数据处理的方案是基于内存映射(memory map)的技术,通过创建 ...
Android通过Web与后台数据库交互
2021.1.27 更新已更新新版本博客,更新内容与原文章相比有点多,因此新开了一篇博客,请戳这里. 1 背景开发一个App与后台数据库交互,基于MySQL+原生JDBC+Tomcat,没有使用D ...
（十一）Docker-DinD
1. Docker in Docker Step 1. Start a daemon instance $ docker run --privileged --name some-docker -d ...
Dropping Balls UVA - 679
A number of K balls are dropped one by one from the root of a fully binary tree structure FBT. Eac ...
Day13_70_join()
join() 方法 * 合并线程 join()线程合并方法出现在哪,就会和哪个线程合并 (此处是thread和主线程合并), * 合并之后变成了单线程,主线程需要等thread线程执行完毕后再执行,两 ...
基于MATLAB的手写公式识别(10)
2公式分割 2.1投影分割法 12:23:00 完成水平和垂直两个方向上的投影 15:32:23 水平投影只投到水平方向的影,垂直投影只投到垂直方向上的影. 16:51:38 17:37:08 终其 ...

[DB] Spark Core (2)

[DB] Spark Core (2)的更多相关文章

随机推荐

热门专题