Spark 常见问题集合
一、Spark 为什么比 MapReduce 要高效?
举一个例子:
select a.state,count(*),AVERAGE(c.price) from a join b on (a.id=b.id) join c on (a.itemId=c.itermId) group by a.state
如果是用 hive 来实现,那么多个此作业将会被转换成 3 个 job 每一个 job 有 一个 map 和一个 reduce,reduce的结果会存储在 hdfs 上
1、hdfs 数据的存储是一个非常耗时的操作,因为存储是通过网络进行传输的,而且还会涉及到 namenode datanode client 之间的一个复杂的通信过程,hdfs 默认是存3份的;
2、每一个map reduce 的作业启动也是一个非常复杂的过程;
所以 map reduce 使用 hdfs 进行中间数据的交互和存储是其低效的重要原因;
而 hive on spark 也会智能的生成一个DAG,但是一个作业只会启动一次,但是中间数据可以根据作业自身的情况选择内存存储或者本地存储,节省了大量的IO操作,这大大的提高了效率。
二、Spark 的 RDD 的数据模型的特点:
RDD --- 弹性分布式数据集合
1、分布式:存在很多的节点上,每个节点上存储一点点,即由多个 partition 构成
2、弹性:多种存储级别,既可以存储在磁盘,亦可以存储在内存,或者一部分存储在磁盘,一部分存储在内存,由用户来决定;
3、RDD 可以转换,可以通过并行的方式进行转换;
4、RDD 具有容错性,失效后自动重构,根据血统的关系,找到其父亲RDD,根据计算关系进行重构。
三、RDD 的 Transformation 和 Action 的区别
1、Transformation 是 把一个 RDD 转换成一个新的 RDD,RDD[x]->RDD[y]
2、Action 是把 一个 RDD 转发成最终的一个结果,或者进行保存到 hdfs 或者磁盘 RDD->Z
3、Action 是一个触发器,程序只有遇到第一个Action 才会执行【惰性执行】
四、3 行代码实现 spark word count
val roWRdd = sc.textFile(args(1))
val resultRdd = rowRdd.flatMap(line=>line.split("\\s+")).map(word=>(word,1)).reduceByKey(_+_)
resultRdd.saveAsTextFile(args[2])
五、spark 的程序框架中 driver 和 executor的作用分别是什么?
每一个 spark 作业都也有 1 个 driver 和 多个 executor 构成
main 函数会跑在 driver 上,executor 是 具体干活的
六、spark 的运行模式,local、standalone,Yarn
通过 -- master 来指定
(1) 本地模式(单机运行,不需要hadoop),测试用的
(2) 独立模式(standalone,只能跑spark),是一种 spark 的集群,需要自己搭建 master/slave,一般不用
(3) 运行在 YARN/mesos
一般的中大型公司会把spark 运行在 yarn 上,yarn 又 分 yarn-client 和 yarn-cluster 2 种
yarn-client 和 yarn-cluster 模式:
yarn-client 模式是 driver 运行在集群之外,优点是可以打印日志,方便调试,缺点是没有容错,如果本地的程序挂掉了,或者误杀死了,整个作业就挂掉了
yarn-cluster 模式是 driver 也有 yarn 的 nodemanager 来托管,优点是容错性较好,缺点是不便于调试
Spark 常见问题集合的更多相关文章
- TPshop之邮箱注册配置教程--附加常见问题集合
准备:企业邮箱(开启POP/SMTP功能) 一.步骤教程: 1.登录企业邮箱(QQ邮箱示例) QQ邮箱 POP3:pop.qq.com SMTP:smtp.qq.com SMTP端口号:25 邮箱 ...
- JMeter常见问题集合
前言 本文内容仅仅是针对Jmeter的部分功能名词的介绍和解释,以及初学者不易理解的问题的整理.部分内容来自别人做的整理,为了更好地整理自己的思路,所以可耻的整理一下发到博客上. 标题[1-6]和[参 ...
- spark转换集合为RDD
SparkContext可以通过parallelize把一个集合转换为RDD def main(args: Array[String]): Unit = { val conf = new SparkC ...
- Spark:scala集合转化为DS/DF
scala集合转化为DS/DF case class TestPerson(name: String, age: Long, salary: Double) val tom = TestPerson( ...
- 【转】Spark常见问题汇总
原文地址:https://my.oschina.net/tearsky/blog/629201 摘要: 1.Operation category READ is not supported in st ...
- Spark link集合
Part1. 各种参数的意义及如何配置 Spark官方文档——Spark Configuration(Spark配置) http://www.cnblogs.com/vincent-hv/p/3316 ...
- 六、spark常见问题总结(转载)
问题导读 1.当前集群的可用资源不能满足应用程序的需求,怎么解决? 2.内存里堆的东西太多了,有什么好办法吗? 1.WARN TaskSchedulerImpl: Initial jo ...
- Spark常见问题汇总
原文地址:https://my.oschina.net/tearsky/blog/629201 摘要: 1.Operation category READ is not supported in st ...
- redis-cluster 集群搭建详细指南及常见问题集合
只当个搬运工吧 搭建篇:https://www.cnblogs.com/mafly/p/redis_cluster.html 测试能用 常见问题: 1 redis操作key时出现以下错误 (erro ...
随机推荐
- 如何使用PowerShell批量删除Office 365的用户
概述 本文将演示如何在必要的时候(例如在测试环境),通过PowerShell脚本批量删除Office 365的用户,首先需要通过Get-MsolUser的命令(并且配合筛选条件)获取到符合条件的用户列 ...
- BeautifulSoup的基本操作
>>> from bs4 import BeautifulSoup #导入 >>> soup = BeautifulSoup(url.content," ...
- LeetCode(92):反转链表 II
Medium! 题目描述: 反转从位置 m 到 n 的链表.请使用一趟扫描完成反转. 说明:1 ≤ m ≤ n ≤ 链表长度. 示例: 输入: 1->2->3->4->5-&g ...
- 《剑指offer》旋转数组中的最小数字
本题来自<剑指offer> 旋转数组中的最小数字 题目: 把一个数组最开始的若干个元素搬到数组的末尾,我们称之为数组的旋转. 输入一个非减排序的数组的一个旋转,输出旋转数组的最小元素. 例 ...
- XMind思维导图使用笔记
首先新建一个空白的图 以组织结构图(向下) 为例 1.双击组织结构图 创建一个空白的页面 2.随便选择一个风格 这时候出现工作台 现在里面只有一个中心主题 正文部分开始 1.如果想要添加一个子主题 ...
- 正则re模块
正则表达式的特殊字符: 语法: re.match(正则语法,字符串) # re.match() 为关键字 group(1) # 取出第一个匹配 括号中的值,1位第一个括号内的值 1. 特殊字符 1 . ...
- 磁盘修改AF
请严格按照如下流程: 1 以管理员打开 硬盘安装助手 2 选择苹果Mac系统镜像 (cdr格式的) 3 直接选择要写入的盘,不要点击右边的方框中的勾选 (此时就可以写入了,虽然最后还是显示 Chang ...
- loss函数学习笔记
一直对机器学习里的loss函数不太懂,这里做点笔记. 符号表示的含义,主要根据Andrew Ng的课程来的,\(m\)个样本,第\(i\)个样本为\(\vec x^{(i)}\),对应ground t ...
- python---顺序查找,二分查找
比较熟悉了. 但要注意细节, 二分查找时,普通方法mid处理,递归时,mid处理. # coding = utf-8 def sequential_search(a_list, item): pos ...
- 一脸懵逼学习keepalived(对Nginx进行热备)
1:Keepalived的官方网址:http://www.keepalived.org/ 2:Keepalived:可以实现高可靠: 高可靠的概念: HA(High Available), 高可用性集 ...