spark的运行方式——转载
本文转载自: spark的运行方式
本文主要讲述运行spark程序的几种方式,包括:本地测试、提交到集群运行、交互式运行 等。
在以下几种执行spark程序的方式中,都请注意master的设置,切记。
运行自带样例
可以用 run-example 执行spark自带样例程序,如下:
./bin/run-example org.apache.spark.examples.SparkPi |
或者同样的:
run-example SparkPi |
交互运行
可以用 spark-shell 以交互方式执行spark代码,这些操作都将由spark自动控制并以分布式处理的形式完成。首先,进入spark shell:
./bin/spark-shell |
然后就可以直接执行spark代码了。spark-shell非常适合学习API,初学的话多在里面敲敲很好的。
- Spark Shell中已经默认将SparkContext类初始化为对象sc。用户代码如果需要用到,则直接应用sc即可,否则用户自己再初始化,就会出现端口占用问题,相当于启动两个上下文。
- 在使用spark-shell时,可以通过 –driver-class-path 选项来指定所依赖的jar文件,多个jar文件之间使用分号”:”分割。
- 如果觉得spark-shell的日志过多而影响观看结果,可以配置一下日志参数,将conf目录下的log4j.properties.template复制一个并命名为log4j.properties,并修改其中的日志等级就ok了。
本地运行测试
如果你是在windows上开发spark程序,然后提交到linux运行。那么本地测试将会方便开发。
本地测试spark程序,需要将master设置为local[n]。同时注意:sc.textFile()可以加载本地文件而不一定是hdfs文件,这对于开发测试是非常方便的。
本地运行测试spark程序,既可以在IDE中进行,也可以手动在命令行中执行,参见我的linux下spark开发环境配置。
windows本地测试时,需要用到hadoop的一个东东(winutils.exe),否则会出现异常。使用方法是:新建一个文件夹 D:\hadoop\bin\ 并将 winutils.exe 放入其中,并保证winutils.exe双击运行没有报*.dll缺失的错误,然后
System.setProperty("hadoop.home.dir", "D:\\hadoop\\")
设置一下hadoop目录即可。
提交到集群
可以用 spark-submit 提交任务到集群执行,如下(这里我们指定了集群URL为spark standalone集群):
spark-submit \ |
--master
参数指定集群URL,可以是独立集群、YARN集群、Mesos集群,甚至是本地模式。见下表:
master可选值 | 描述 |
---|---|
spark://host:port | spark standalone集群,默认端口为7077。 |
yarn | YARN集群,当在YARN上运行时,需设置环境变量HADOOP_CONF_DIR指向hadoop配置目录,以获取集群信息。 |
mesos://host:port | Mesos集群,默认端口为5050。 |
local | 本地模式,使用1个核心。 |
local[n] | 本地模式,使用n个核心。 |
local[*] | 本地模式,使用尽可能多的核心。 |
- 如果jar包所需的依赖较少,通过
--jars
手动指定还可以,如果很多,最好使用构建工具打包。- 需要注意的是,你的spark程序需要打包成jar包,spark-submit会将程序包分发到各个worker节点,同时这些上传到worker节点的文件,需要定时清理,否则会占用许多磁盘空间,如果运行于standalone模式,你可以设置 spark.worker.cleanup.appDataTtl 选项来让spark自动清理这些文件。
- 其实安装spark不需要安装scala,因为 spark-assembly-1.2.0-hadoop2.4.0.jar 中已经自带了scala库。spark/bin/compute-classpath.sh 会自动将spark自带的库文件(spark-assembly-1.2.0-hadoop2.4.0.jar等)添加到classpath中,因此即使classpath和你的spark应用程序中都没有指定spark库文件路径,你的spark应用程序照样可以执行。
spark的运行方式——转载的更多相关文章
- Spark 精品文章转载(目录)
学习 Spark 中,别人整理不错的文章,转载至本博客,方便自己学习,并按照不同的模块归档整理.每个文章作者能力不同,写文章所处的时间点不同,可能会略有差异,在阅读的同时,注意当时的文章的内容是否已经 ...
- CentOS上安装spark standalone mode(转载)
原文链接 http://blog.csdn.net/chenxingzhen001/article/details/11072765 参考: http://spark.incubator.apache ...
- Project Tungsten:让Spark将硬件性能压榨到极限(转载)
在之前的博文中,我们回顾和总结了2014年Spark在性能提升上所做的努力.本篇博文中,我们将为你介绍性能提升的下一阶段——Tungsten.在2014年,我们目睹了Spark缔造大规模排序的新世界纪 ...
- Spark内核-部署模式
Master URL Meaning local 在本地运行,只有一个工作进程,无并行计算能力. local[K] 在本地运行,有K个工作进程,通常设置K为机器的CPU核心数量. local[*] 在 ...
- 【大数据】Spark内核解析
1. Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spa ...
- Spark(火花)快速、通用的大数据处理引擎框架
一.什么是Spark(火花)? 是一种快速.通用处理大数据分析的框架引擎. 二.Spark的四大特性 1.快速:Spark内存上采用DAG(有向无环图)执行引擎非循环数据流和内存计算支持. 内存上比M ...
- 【Spark 内核】 Spark 内核解析-上
Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更 ...
- spark源码解析大全
第1章 Spark 整体概述 1.1 整体概念 Apache Spark 是一个开源的通用集群计算系统,它提供了 High-level 编程 API,支持 Scala.Java 和 Pytho ...
- Spark内核解析
Spark内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制.Spark任务调度机制.Spark内存管理机制.Spark核心功能的运行原理等,熟练掌握Spark内核 ...
随机推荐
- Oracle 安全性一
创建和管理数据库用户账户 用户账户属性 用户账户拥有很多在创建账户时定义的属性.这些属性将应用于连接到账户的会话,在会话运行期间,DBA或会话可以更改其中一些属性. 用户名 身份验证方法 默认表空间 ...
- iOS:文字相关(19-01-08更)
0.写在前面 1.小技巧 UILabel类: 1-1-1).设置行间距富文本,有省略号要求的,需要再次设置省略(初始化时设置的会失效). UITextField类: 1-2-1).清空按钮. UITe ...
- 小程序 组件 Component
一.组件模板和样式 类似于页面,自定义组件拥有自己的 wxml 和模板 wxss 样式. 1.组件模板 组件的写法和页面的写法相同,组件模板与组件数据结合后生成的数节点, 将被插入到组件的引用位置.在 ...
- Python 基础 Dict 和 Set 类型
python 什么是dict 例如: d = { 'Adam': 95, 'Lisa': 85, 'Bart': 59 } 我们把名称称为key,对应的成绩称为value,dic就是通过key 来查找 ...
- 歌词解析&class
class song_song: def __init__(self,lrc_file): # 定义两个字典一个列表备用 self.song_file = lrc_file self.song_lrc ...
- react路由传参
方法1 <刷新页面参数会消失> <Link className="item" to={{pathname:'/order',params:{index :&quo ...
- Mave实战(1)——Maven介绍
目录 1. Maven介绍 1.1. 何为Maven 1.1.1. Maven是优秀的构建工具 1.1.2. Maven不仅仅是构建工具 1. Maven介绍 1.1. 何为Maven Maven是一 ...
- WebGl 一个缓冲区传递颜色和坐标(矩形)
效果: 代码: <!DOCTYPE html> <html lang="en"> <head> <meta charset="U ...
- Android接口与架构(驱动开发)翻译官方文档
Android接口与架构 Android在设备的规格与驱动方面给了你很大的自由来实现.HAL层提供了一个标准的方式来打通Android系统层与硬件层.Android系统是开源的,所以你能够在接口和性能 ...
- 获取http-post请求的原生报文
BufferedReader br = new BufferedReader(new InputStreamReader(request.getInputStream(), "utf-8&q ...