1. 编辑spark-defaults.conf位置文件

添加spark.eventLog.enabled和spark.eventLog.dir的配置
修改spark.eventLog.dir为我们之前在hdfs配置的端口
hdfs配置参考hadoop(七)集群配置同步(hadoop完全分布式四)|9

  1. [shaozhiqi@hadoop102 conf]$ pwd
  2. /opt/module/spark-2.4.3-bin-hadoop2.7/conf
  3. [shaozhiqi@hadoop102 conf]$ vim spark-defaults.conf
  4. # spark.master spark://master:7077
  5. # spark.eventLog.enabled true
  6. # spark.eventLog.dir hdfs://namenode:8021/directory
  7. # spark.serializer org.apache.spark.serializer.KryoSerializer
  8. # spark.driver.memory 5g
  9. # spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"
  10. spark.eventLog.enabled true
  11. spark.eventLog.dir hdfs://hadoop102:9000/directory

2. 分发我们conf修改的配置文件

分发配置参考hadoop(六)rsync远程同步|xsync集群分发(完全分布式准备三)|8

  1. [shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ testxsync conf/

找个机器看下是否同步成功

  1. [shaozhiqi@hadoop103 spark-2.4.3-bin-hadoop2.7]$ cd conf
  2. [shaozhiqi@hadoop103 conf]$ cat spark-defaults.conf
  3. # spark.master spark://master:7077
  4. # spark.eventLog.enabled true
  5. # spark.eventLog.dir hdfs://namenode:8021/directory
  6. # spark.serializer org.apache.spark.serializer.KryoSerializer
  7. # spark.driver.memory 5g
  8. # spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"
  9. spark.eventLog.enabled true
  10. spark.eventLog.dir hdfs://hadoop102:9000/directory
  11. [shaozhiqi@hadoop103 conf]$

3. 启动我们的hdfs

防止启动报错,先删除data logs 然后格式化namenode
bin/hdfs namenode –format

  1. [shaozhiqi@hadoop102 hadoop-3.1.2]$ start-dfs.sh

启动成功,查看进程

  1. [shaozhiqi@hadoop102 hadoop-3.1.2]$ start-dfs.sh
  2. Starting namenodes on [hadoop102]
  3. Starting datanodes
  4. hadoop103: WARNING: /opt/module/hadoop-3.1.2/logs does not exist. Creating.
  5. hadoop104: WARNING: /opt/module/hadoop-3.1.2/logs does not exist. Creating.
  6. Starting secondary namenodes [hadoop104]
  7. [shaozhiqi@hadoop102 hadoop-3.1.2]$ jps
  8. 3088 Master
  9. 3168 Worker
  10. 4452 Jps
  11. 3366 CoarseGrainedExecutorBackend
  12. 4200 DataNode
  13. 4076 NameNode
  14. 3773 GetConf
  15. [shaozhiqi@hadoop102 hadoop-3.1.2]$

Yarn等我们提交任务到yarn时再启动

4. 查看我们的hdfs namenode ui

image.png

5. 创建hdfs文件夹,和我们上面配置的spark-defaults.conf中的一样

  1. [shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ hadoop fs -mkdir /directory

再次查看:

image.png

6. 再次修改spark-env.sh添加历史服务参数

  1. [shaozhiqi@hadoop102 conf]$ vi spark-env.sh
  2. export JAVA_HOME=/opt/module/jdk1.8.0_211
  3. export SPARK_MASTER_HOS=hadoop102
  4. export SPARK_MASTER_PORT=7077
  5. export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=4000 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://hadoop102:9000/directory"

7. 同步我们的spark-env.sh

  1. shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ testxsync conf/spark-env.sh

8. 执行一个spark进程

  1. [shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ bin/spark-submit \
  2. > --class org.apache.spark.examples.SparkPi \
  3. > --master spark://hadoop102:7077 \
  4. > --executor-memory 1G \
  5. > --total-executor-cores 2 \
  6. > ./examples/jars/spark-examples_2.11-2.4.3.jar \
  7. > 100

9. 查看spark ui多了我们的进程

image.png

点击spark pi进程,由于我们的任务还在执行,可以直接跳转

image.png

10. 发现好久都没有执行完看下日志

  1. 19/07/01 07:15:53 WARN TaskSchedulerImpl:Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources

难道是没有资源了?
点击kill掉spark shell和我们的spark Pi,然后单独提交spark Pi任务试下

  1. [shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ bin/spark-submit \
  2. > --class org.apache.spark.examples.SparkPi \
  3. > --master spark://hadoop102:7077 \
  4. > --executor-memory 1G \
  5. > --total-executor-cores 2 \
  6. > ./examples/jars/spark-examples_2.11-2.4.3.jar \
  7. > 100

image.png

可以看到50多秒句结束了
当任务执行结束现在去访问spark 的4000,发现发问不了

11. 开启历史服务就可以访问已结束的任务了

  1. [shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ sbin/start-history-server.sh
  2. starting org.apache.spark.deploy.history.HistoryServer, logging to /opt/module/spark-2.4.3-bin-hadoop2.7/logs/spark-shaozhiqi-org.apache.spark.deploy.history.HistoryServer-1-hadoop102.out
  3. [shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ jps

可以看到多了HistoryServer

  1. [shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$ jps
  2. 3505 Worker
  3. 4708 HistoryServer
  4. 4775 Jps
  5. 4027 DataNode
  6. 3437 Master
  7. 3901 NameNode
  8. [shaozhiqi@hadoop102 spark-2.4.3-bin-hadoop2.7]$

12. 访问history ui,成功

image.png

13. 查看hdfsz有无生成执行结果文件

文件已生成历史服务配置成功

image.png

配置spark历史服务(spark二)的更多相关文章

  1. Azure HDInsight 和 Spark 大数据实战(二)

    HDInsight cluster on Linux 登录 Azure portal (https://manage.windowsazure.com ) 点击左下角的 NEW 按钮,然后点击 DAT ...

  2. WSL2+Ubuntu配置Java Maven Hadoop Spark环境

    所需文件: 更新日期为2021/5/8: Linux 内核更新包 JDK1.8 maven3.8.1 hadoop3.3.0 spark3.1.1 WSL?WSL2? WSL是适用于 Linux 的 ...

  3. 【译】Spark官方文档——Spark Configuration(Spark配置)

    注重版权,尊重他人劳动 转帖注明原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.html   Spark主要提供三种位置配置系统: 环境变量:用来启动 ...

  4. 【配置、开发】Spark入门教程[2]

    本教程源于2016年3月出版书籍<Spark原理.机制及应用> ,在此以知识共享为初衷公开部分内容,如有兴趣,请支持正版书籍. Spark为使用者提供了大量的工具和脚本文件,使得其部署与开 ...

  5. Spark(十二) -- Spark On Yarn & Spark as a Service & Spark On Tachyon

    Spark On Yarn: 从0.6.0版本其,就可以在在Yarn上运行Spark 通过Yarn进行统一的资源管理和调度 进而可以实现不止Spark,多种处理框架并存工作的场景 部署Spark On ...

  6. Spark面试题(二)

    首发于我的个人博客:Spark面试题(二) 1.Spark有哪两种算子? Transformation(转化)算子和Action(执行)算子. 2.Spark有哪些聚合类的算子,我们应该尽量避免什么类 ...

  7. Spark学习之Spark调优与调试(二)

    下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个 RDD 合并到一个步骤中时.当RDD 不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行.上一 ...

  8. Hadoop 历史服务配置启动查看

    历史服务配置启动查看 1)配置mapred-site.xml <property> <name>mapreduce.jobhistory.address</name> ...

  9. spark集群配置以及java操作spark小demo

    spark 安装 配置 使用java来操作spark spark 安装 tar -zxvf spark-2.4.0-bin-hadoop2.7.tgz rm spark-2.4.0-bin-hadoo ...

随机推荐

  1. webpack,Babel,babel-loader的关系

    本文将要介绍 webpack,Babel,babel-loader 的关系.理清楚他们各自做了什么事情. 通常我们新建一个项目,会先配置webpack,然后配置babel:babel是一个编译工具,实 ...

  2. 图解I/O模型

      本文带你鸟瞰I/O模型全貌,希望可以让你对I/O模型有一个直观的认识 什么是I/O?I/O的过程?同步阻塞 I/O同步非阻塞 I/OI/O多路复用异步I/O 什么是I/O?   I/O就是计算机内 ...

  3. 【2019牛客暑期多校第三场】J题LRU management

    题目链接 题意 好吧,这道题我其实看都没看过,队友跟我说了说这道题是模拟题,卡时间.然后我就上了-- 大致就是维护一个线性表,然后有两种操作:插入.查询 插入时,如果这个值(string)之前出现过, ...

  4. java获取不同时段

    当前时间: long currentime= System.currentTimeMillis(); 本周第一天0时: Long weekstart = current.withDayOfWeek(1 ...

  5. vscode快速生成html模板(vscode快捷键"!"生成html模板)

    问题: 在vscode中新建test.html, 内容是空白的,输入"!",然后按tap键 ,没有生成常见的html模板,也就是如下: 输入! html html:5 DOCTYP ...

  6. Github桌面版使用方式(MAC)

    Github是一个流行的代码管理网站,同时也是全球最大的同性交友网站(滑稽).Github网页上你可以自由地托管自己的项目,也可以fork别人的项目过来玩耍,非常之方便,今天笔者就来介绍一下githu ...

  7. Github标星过万,Python新手100天学习计划,这次再学不会算我输!

      作为目前最火也是最实用的编程语言,Python不仅是新手入门程序界的首选,也逐渐成为了从大厂到小厂,招牌需求list的必要一条. 当然,学Python这件事情,你可能也和文摘菌一样,已经下了一百次 ...

  8. React Hooks 实现react-redux

    Redux 是目前 React 系统中最常用的数据管理工具,它落实并发扬了 Flux 的数据单向流动模式,被实践证明为一种成熟可用的模式. 尽管承受着一些非议,Redux 在 React 数据管理界的 ...

  9. NSObject常用方法

    类 @interface NSObject <NSObject> { Class isa OBJC_ISA_AVAILABILITY; } // 初始化加载 + (void)load; / ...

  10. SQL实战(六)

    一. 题目描述 查找排除当前最大.最小salary之后的员工的平均工资avg_salary.CREATE TABLE `salaries` ( `emp_no` int(11) NOT NULL,`s ...