* SparkCore基础(二)

继续探讨SparkCore,开门见山,不多废话。

SparkApplication结构探讨

包含关系:

之前我们运行过很多App了,其实每一个App都包含若干个Job任务;

而Job任务呢,一般都是由RDD的Action动作发出的eg:first、count、collect等等;

一个Job任务包含多个Stage,各个Stage之间是互相依赖的,比如,第一个stage没有走完,是不会走第二个stage的,对于同一个stage,所有的task的业务逻辑相同,而处理的数据不同;

一个Stage包含多个Task。

运行构成:

对于Spark Application的集群运行情况来讲,都有两个部分组成

** Driver:每个应用都有一个driver,在其中的main方法中实例化SparkContext,从而创建RDD,然后向Master或者ResourceManager申请资源来运行Executor,调度Job任务

** Executor:相当于MapReduce中的Map Task一样,是一个JVM进程,用于运行Task,以线程形式运行

 
 

下面是Spark集群的一些概念简述:

 
 

RDD进一步探讨

RDD是什么:

**  是一系列分区的数据集合,类似于Hadoop中的split

** 每个分区都可以应用某个函数去运算

** RDD之间具有依赖关系,例如,RDD1 转换为RDD2时,那么RDD2就依赖于RDD1

** 可以指定key-value形式的RDD的分区规则,比如hash

** RDD可以选择最优的读取数据的位置,比如:从内存读?从本地读?或者设置了多个副本,决定从哪个副本读数据是最优的。

IDEA工具开发Spark

Step1、创建一个Scala项目

 
 

Step2、创建项目名称以及指定路径后直接Finish

 
 

Step3、在File--Project Structure选项的Modules中创建目录结构如图,注意文件夹图标样式,main和test中的resources文件夹图标是有区别的

 
 

Step4、在Libraries中点击加号导入Spark相关依赖Jar(这里我导入的Jar是CDH-Spark根目录下的lib目录下的Jar,这里不需要导入example相关Jar)

 
 

Step5、将HDFS的两个配置文件拷入到resources目录下

 
 

Step6、创建一个Scala-object,编写代码如下:

 
运行即可

IDEA打包SparkJar

我们也可以使用IDEA打包编写好的SparkJar包然后使用spark-submit命令提交任务

Step1、点击Artifacts标签后,点击加号,选择JAR-from modules from dependencies

 
 

Step2、点击红框内容后,出现蓝框内容

 
 

Step3、搞定后,删除掉关于Spark和Hadoop的相关依赖,打包自己的工程时,不需要将Spark和Hadoop的Jar也打包入你的工程里,这样会增加你的工程的体积(官方描述:The user's jar should never include Hadoop or Spark libraries, however, these will be added at runtime.),点击减号删除到如下所示:

 
 

Step4、OK后,选择Build-Build Artifacts-Build,然后去对应目录下,拷贝出Build好的Jar到Linux,什么?不知道生成的Jar在哪?你看看上图中Output directory属性

Step5、运行你的Jar

$ bin/spark-submit --master spark://z01:7077 /home/z/Desktop/FirstSpark.jar

Spark在Yarn上运行

相关文档:http://spark.apache.org/docs/1.6.1/running-on-yarn.html

运行Spark应用有两种模式:

1、在Client端所在节点运行

这种情况比较适用于调试应用程序,比如:

Yarn:

bin/spark-submit \

--master yarn \

--deploy-mode client \

/home/z/Desktop/FirstSpark.jar

2、在Cluster中运行

Yarn:

$ bin/spark-submit \

--master yarn \

--deploy-mode cluster \

/home/z/Desktop/FirstSpark.jar

以上两种模式的区别在于:

Client模式:

Spark App的Driver请求ResourceManager,产生一个ApplicationMaster,然后由ApplicationMaster向ResourceManager申请资源,ResourceManager分配Container给NodeManager,然后由NodeManager运行其上的Executor。

Cluster模式:

Driver运行节点即ApplicationMaster节点,后面的操作你懂得,跟Client模式差不多了。

注意:spark-shell只能在client模式下运行,比如默认deploty-mode其实如下

Standalone:

$ bin/spark-shell --master spark://z01:7077 --deploy-mode client

Spark的广播使用

广播这个概念在不同的计算机领域中都有涉及,那么在Spark中,如果你想过滤掉一些特殊符号,在这样的情境中,就可以使用广播(不使用行不行?行!但消耗更多。)首先我们先上代码:

 
 

代码中,注意红框部分,我们使用广播过滤掉了一些特殊字符的统计。如果不适用广播,意味着list特殊字符集合中的所有信息都需要拷贝到所有的数据分区中,如果使用了广播,只需要将数据广播到指定的Executor中即可。

Spark中Maven项目的构建

在构建项目时,可以选择使用mvn命令构建,当然也可以使用IDEA的可视化界面构建,那么我们下面分别探讨两种方式:

方式一:环境-Linux(不推荐,当然也要看喜好)

方式二:环境-Windows(推荐)

Step1、打开IDEA工具,选择Create new project,选择Maven,点击Create from archetype,留意红框内容

 
 

Step2、Next后,不必解释过多了吧?如图:

 
 

Step3、选择你的Maven仓库地址,默认在.m2目录下,可以自己指定,稍后会自动下载相关依赖

 
 

Step4、Next后,编辑项目的一些基本信息,finish即可,如图:

 
 

Step5、打开pom.xml,配置一些后边课程我们可能会用到的依赖,剩下的目录配置等等,和之前的我们学过的一样

 
 

Step6、最后完成时,你会发现导入的jar包在左边的External Libraries中看到如下内容

 
 

最后,在刚创建好的Maven工程中写一个WordCount试试?:)

* 总结

学会这些基础操作后,可以进行更多的拓展,比如分析一下apache的日志?请参看官方完整案例。


个人微博:http://weibo.com/seal13

QQ大数据技术交流群(广告勿入):476966007


作者:Z尽际
链接:https://www.jianshu.com/p/ec5b8869f2f4
來源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

SparkCore基础(二)的更多相关文章

  1. SparkCore基础(一)

    * SparkCore基础(一) 学习Spark,首先要熟悉Scala,当然你说你会Python或者Java能不能玩Spark?能!但是不推荐,首推Scala,因为Scala非常便捷,而且Scala有 ...

  2. Python全栈开发【基础二】

    Python全栈开发[基础二] 本节内容: Python 运算符(算术运算.比较运算.赋值运算.逻辑运算.成员运算) 基本数据类型(数字.布尔值.字符串.列表.元组.字典) 其他(编码,range,f ...

  3. Bootstrap <基础二十九>面板(Panels)

    Bootstrap 面板(Panels).面板组件用于把 DOM 组件插入到一个盒子中.创建一个基本的面板,只需要向 <div> 元素添加 class .panel 和 class .pa ...

  4. Bootstrap <基础二十八>列表组

    列表组.列表组件用于以列表形式呈现复杂的和自定义的内容.创建一个基本的列表组的步骤如下: 向元素 <ul> 添加 class .list-group. 向 <li> 添加 cl ...

  5. Bootstrap<基础二十七> 多媒体对象(Media Object)

    Bootstrap 中的多媒体对象(Media Object).这些抽象的对象样式用于创建各种类型的组件(比如:博客评论),我们可以在组件中使用图文混排,图像可以左对齐或者右对齐.媒体对象可以用更少的 ...

  6. Bootstrap <基础二十六>进度条

    Bootstrap 进度条.在本教程中,你将看到如何使用 Bootstrap 创建加载.重定向或动作状态的进度条. Bootstrap 进度条使用 CSS3 过渡和动画来获得该效果.Internet ...

  7. Bootstrap <基础二十五>警告(Alerts)

    警告(Alerts)以及 Bootstrap 所提供的用于警告的 class.警告(Alerts)向用户提供了一种定义消息样式的方式.它们为典型的用户操作提供了上下文信息反馈. 您可以为警告框添加一个 ...

  8. Bootstrap<基础二十四> 缩略图

    Bootstrap 缩略图.大多数站点都需要在网格中布局图像.视频.文本等.Bootstrap 通过缩略图为此提供了一种简便的方式.使用 Bootstrap 创建缩略图的步骤如下: 在图像周围添加带有 ...

  9. Bootstrap <基础二十三>页面标题(Page Header)

    页面标题(Page Header)是个不错的功能,它会在网页标题四周添加适当的间距.当一个网页中有多个标题且每个标题之间需要添加一定的间距时,页面标题这个功能就显得特别有用.如需使用页面标题(Page ...

随机推荐

  1. 安装MYSQL错误“conflicts with file from package mysql-libs-*” 解决方法

    安装MYSQL的时候时: 错误现象: [root@localhost opt]# rpm -ivh MySQL-server-5.5.32-1.el6.x86_64.rpm Preparing... ...

  2. 苹果要求全部新app以及版本号更新必须支持iOS 8 SDK和64-bit

    2014年10月20日.苹果官方公布了一则新闻,新闻内容例如以下: Starting February 1, 2015, new iOS apps uploaded to the App Store ...

  3. iOS CoreData介绍和使用(以及一些注意事项)

    iOS CoreData介绍和使用(以及一些注意事项) 最近花了一点时间整理了一下CoreData,对于经常使用SQLite的我来说,用这个真的有点用不惯,个人觉得实在是没发现什么亮点,不喜勿喷啊.不 ...

  4. ora-01157怎么解决

    在数据库startup时,出现以下两个错误:ora-01157:cannot identify/lock data file 8 -see DBWR trace fileora-01110:data ...

  5. Oracle 数据泵使用详解--精华版

    数据泵使用EXPDP和IMPDP时应该注意的事项: EXP和IMP是客户端工具程序,它们既可以在客户端使用,也可以在服务端使用. EXPDP和IMPDP是服务端的工具程序,他们只能在ORACLE服务端 ...

  6. gb2312和gbk互转

    String deStr = System.Web.HttpUtility.UrlEncode("欢迎", Encoding.GetEncoding("GBK" ...

  7. c#邮件发送服务

    邮件发送服务 项目中会遇到定时给某人发送邮件的功能要求,这里是京东的一段代码,当然也是我同事找的,我记录学习一下,以免忘记. 这是解决方案 这里主要是工具:日志工具,链接数据库工具,发送邮件工具 这里 ...

  8. 中文版 Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

    Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 摘要 最先进的目标检测网络依靠区域提出算法 ...

  9. 《鸟哥的Linux私房菜》笔记——02. 关于Linux

    Unix 历史 1969年以前:伟大的梦想--Bell, MIT 与 GE 的「Multics」系统 1969年:Ken Thompson 的小型 file server system 1973年:U ...

  10. 洛谷P2617 Dynamic Rankings 主席树 单点修改 区间查询第 K 大

    我们将线段树套在树状数组上,查询前预处理出所有要一起移动的节点编号,并在查询过程中一起将这些节点移到左右子树上. Code: #include<cstdio> #include<cs ...