1.spark执行原理图

 spark程序启动后创建sparkContext作为程序的入口,sparkContext可以与不同类的集群资源管理器(Cluster Manager)进行通信,从而获得程序运行所需要的资源, 获取到集群中其他工作节点(worker node)上对应的Executors,之后sparkContext将任务分发给executor进行执行。

  1) 构建Spark Application运行环境

    在Driver Program中新建SparkContext(包含SparkContext的程序称为Driver Program)

  2) SparkContext向资源管理器申请运行Executor资源,并启动Executor,Executor向SparkContext申请task

  3)SparkContext获得Executor后,Application代码会被发送到各个executor上

  4)SparkContext构建RDD DAG图,将RDD DAG图分解为Stage DAG图,将stage提交给TaskScheduler,最后TaskSecheduler将Task发送给Executor执行

  5) Task在Executor上执行,执行完毕后释放所有资源

2.Driver的运行方式(提交的部署模式):运行在worker节点上(集群模式)和运行在客户端上(客户端模式)

  2.1 Driver运行在worker节点上

bin/spark-submit \
--master spark://hadoop-senior.ibeifeng.com:7077 \
--deploy-mode cluster\
/opt/datas/jars/SparkApp.jar

    

    客户端提交作业给Master,Master让一个worker启动Driver,其余的worker启动Executor,Executor启动后向Driver进行注册;

    Dirver启动后会创建DAGScheduler,Executor启动后会创建TaskScheduler;

    DAGScheduler将作业分解为一到多个Stage,每个Stage根据RDD的partition个数决定了Task的个数(TaskSet),然后将生产的task set 放入到TaskScheduler中,然后TaskScheduler将Task分配的不同的Executor中执行,所有的Stage执行完成作业结束。

  2.2 Driver运行在client上(此处的client表示提交作业的那台机器)

bin/spark-submit \
--master spark://hadoop-senior.ibeifeng.com:7077 \
--deploy-mode client \
/opt/datas/jars/SparkApp.jar

    

    客户端之间启动程序,启动Driver相关工作:DAGScheduler和Master,客户端的Driver和worker向Master进行注册;

    Master让worker节点启动Executor,并向Driver进行注册;

    Driver的DAGScheduler将作业分解为相应的Stage,每个Stage包含的Task分配给TaskScheduler,TaskScheduler将task分配到不同的Executor执行,所有的Stage执行完成后作业结束。

2.窄依赖和宽依赖

  窄依赖:每个父RDD的Partition最多被子RDD的一个Partition所使用。

  宽依赖:每个父RDD的Partition会被多个子RDD的Partition所使用。

3.Spark四大特性

  1)快速的:在内存中进行计算以及DAG图

  2)通用的:包括批处理,流处理,图像计算等

  3)简单的:Scale,Java、Python

  4)可以运行在任何地方:hdfs,hive,hbase,yarn等

4.RDD的五大特性

  1)A list of partition

    一系列的分片

  2)A function for computing each split

    在每一个分片上都有一个函数去迭代/执行/计算它

  3)A list of dependences on other RDDS

    一系列的依赖:RDDa转换为RDDb,RDDb转换为RDDc,那么RDDc就依赖于RDDb,RDDb依赖于RDDa

  4)Optionally,a partitioner for key-value RDDs

    对于key-value的RDD,可指定一个parttitioner(分区函数),来告诉它如何分区,默认采用的是hash分区,常有:hash,range

  5) Optionally,a list of preferred locations to compute each split on

    处理RDD split进行计算时,split数据在哪里,我们尽量在那台机器上进行计算(移动计算而不是移动数据)

5.spark历史日志监控配置

  1)服务端配置(conf/spark-env.sh)

SPARK_HISTORY_OPTS=-Dspark.history.fs.logDirectory=hdfs://hadoop-senior.ibeifeng.com:8020/user/beifeng/spark/eventLogs

  2 ) 客户端配置(conf/spark-defaults.conf)

spark.eventLog.enabled           true
spark.eventLog.dir hdfs://hadoop-senior.ibeifeng.com:8020/user/beifeng/spark/eventLogs

  3 ) 启动历史服务器

sbin/start-history-server.sh

spark复习总结02的更多相关文章

  1. 【Spark 深入学习 02】- 我是一个凶残的spark

    学一门新鲜的技术,其实过程都是相似的,先学基本的原理和概念,再学怎么使用,最后深究这技术是怎么实现的,所以本章节就带你认识认识spark长什么样的,帅不帅,时髦不时髦(这货的基本概念和原理),接着了解 ...

  2. spark复习笔记(1)

    使用spark实现work count ---------------------------------------------------- (1)用sc.textFile(" &quo ...

  3. spark复习笔记(7):sparkstreaming

    一.介绍 1.sparkStreaming是核心模块Spark API的扩展,具有可伸缩,高吞吐量以及容错的实时数据流处理等.数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字 ...

  4. spark复习笔记(7):sparkSQL

    一.saprkSQL模块,使用类sql的方式访问Hadoop,实现mr计算,底层使用的是rdd 1.hive //hadoop  mr  sql 2.phenoix //hbase上构建sql的交互过 ...

  5. spark复习笔记(6):RDD持久化

    在spark中最重要的功能之一是跨操作在内存中持久化数据集.当你持久化一个RDD的时候,每个节点都存放了一个它在内存中计算的一个分区,并在该数据集的其他操作中进行重用,持久化一个RDD的时候,节点上的 ...

  6. spark复习笔记(6):数据倾斜

    一.数据倾斜 spark数据倾斜,map阶段对key进行重新划分.大量的数据在经过hash计算之后,进入到相同的分区中,zao

  7. spark复习笔记(4):RDD变换

    一.RDD变换 1.返回执行新的rdd的指针,在rdd之间创建依赖关系.每个rdd都有一个计算函数和指向父rdd的指针 Spark是惰性的,因此除非调用某个转换或动作,否则不会执行任何操作,否则将触发 ...

  8. spark复习笔记(5):API分析

    0.spark是基于hadoop的mr模型,扩展了MR,高效实用MR模型,内存型集群计算,提高了app处理速度. 1.特点:(1)在内存中存储中间结果 (2)支持多种语言:java scala pyt ...

  9. spark复习笔记(4):spark脚本分析

    1.[start-all.sh] #!/usr/bin/env bash # # Licensed to the Apache Software Foundation (ASF) under one ...

随机推荐

  1. ThinkPHP内置标签库原理(Cx标签库)

    任何一个模板引擎的功能都不可能是为你量身定制的,具有一个良好的可扩展 机制也是模板引擎的另外一个考量,Smarty采用的是插件方法来实现扩展,ThinkTemplate由于采用了标签库技术,比Smar ...

  2. Spring Cloud Gateway注册到服务器中心(Consul)

    Spring Cloud Gateway注册到服务器中心(Consul) 准备环境 启动Consul(./consul agent -dev)作为服务中心,默认是8500端口,然后启动spring-c ...

  3. jvm学习(1) 总体篇

    1.1 Java体系构成 JAVA体系包括四个方面: JAVA编程语言,编辑的文件为Java源代码,文件格式为(.java):    JAVA类文件格式,编译后文件格式为(.class):    JA ...

  4. canvas 踩坑记录

    一.绘制一个带有多张图片和文字的canvas.要求将一张矩形的图片,放置进去显示为圆角矩形的图片 解决方案,先把图片处理成圆角矩形的样子,再放进去就可以了 绘制圆角矩形图片的解决方案 效果如下图 &l ...

  5. HDU 1398 Square Coins(DP)

    Square Coins Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others)Tota ...

  6. mysql控制台的一些技巧,显示,输入换行,语法正则等

    注释: 以/**注释内容**/ mysql> /**列出所有的数据库**/ show databases; +--------------------+ | Database | +------ ...

  7. Jquery查找界面Html元素的方法(持续更新)

    1. 根据id来获取:$("#id") 2.根据class来获取:$(".class") 3.根据name来获取:$("[name=??]" ...

  8. eclipse导入了jar查看不了源码解决方法

    当导入源码的时候ctrl+左键的时候,还是查看不了源码.问题一直困扰我很久,百度了很多方法.现在分享下解决的方法. 经过简单整理,如下: 第一步:下载JAD . jad官方地址的官方下载地址是: ht ...

  9. C++的命名空间

    作用:防止类,函数,变量等之间重名,比如在代码合并的时候 假如两个头文件中均定义了类Cal,而调用程序同时包含了两个头文件,当在定义Cal c时,程序会报类型重定义的错误.这种问题可以通过命名空间来解 ...

  10. docker 安装 jenkins 笔记

    前提: 已安装好 docker-ce,可运行 docker 命令 命令: sudo docker pull jenkins mkdir -p ~/dockers/jenkins cd ~/docker ...