spark UI 查看 Accumulator

2024-09-02

Spark Accumulators

概述 Accumulator即累加器,与Mapreduce counter的应用场景差不多,都能很好地观察task在运行期间的数据变化,Spark中的Accumulator各task可以对Accumulator值进行累加,但是最终的返回值只能在Driver端获取,同时原生支持Int和Double类型的Accumulator,也支持对Accumulator自定义类型及命名,以便我们更好的对程序进行调优 Accumulator能解决哪些问题? 1.能精确地统计数据的各种属性.例如可以统计出符合use

Spark UI界面原理

当Spark程序在运行时,会提供一个Web页面查看Application运行状态信息.是否开启UI界面由参数spark.ui.enabled(默认为true)来确定.下面列出Spark UI一些相关配置参数,默认值,以及其作用. 参数默认值作用描述 spark.ui.enabled true 是否开启UI界面 spark.ui.port 4040(顺序探查空闲端口) UI界面的访问端口号 spark.ui.retainedJobs 1000 UI界面显示的Job个数 spark.ui.ret

Spark源码剖析 - SparkContext的初始化(三)_创建并初始化Spark UI

3. 创建并初始化Spark UI 任何系统都需要提供监控功能,用浏览器能访问具有样式及布局并提供丰富监控数据的页面无疑是一种简单.高效的方式.SparkUI就是这样的服务. 在大型分布式系统中,采用事件监听机制是最常见的.为什么要使用事件监听机制?假如SparkUI采用Scala的函数调用方式,那么随着整个集群规模的增加,对函数的调用会越来越多,最终会受到Driver所在JVM的线程数量限制而影响监控数据的更新,甚至出现监控数据无法及时显示给用户的情况.由于函数调用多数情况下是同步调用,这就导

Spark（四十七）：Spark UI 数据可视化

导入: 1)Spark Web UI主要依赖于流行的Servlet容器Jetty实现: 2)Spark Web UI(Spark2.3之前)是展示运行状况.资源状态和监控指标的前端,而这些数据都是由度量系统(MetricsSystem)收集来的: 3)Spark Web UI(spark2.3之后)呈现的数据应该与事件总线和ElementTrackingStore关系紧密,而MetricsSystem是一个向外部提供测量指标的存在具体Spark UI存储更改可以通过spark issue查看:

[看图说话] 基于Spark UI性能优化与调试——初级篇

Spark有几种部署的模式,单机版.集群版等等,平时单机版在数据量不大的时候可以跟传统的java程序一样进行断电调试.但是在集群上调试就比较麻烦了...远程断点不太方便,只能通过Log的形式,进行分析,利用spark ui做性能调整和优化. 那么本篇就介绍下如何利用Ui做性能分析,因为本人的经验也不是很丰富,所以只能作为一个入门的介绍. Spark UI入口如果是单机版本,在单机调试的时候输出信息中已经提示了UI的入口: 17/02/26 13:55:48 INFO SparkEnv: Reg

Spark UI (基于Yarn) 分析与定制

转载自:https://yq.aliyun.com/articles/60194 摘要: 这篇文章的主旨在于让你了解Spark UI体系,并且能够让你有能力对UI进行一些定制化增强.在分析过程中,你也会深深的感受到Scala语言的魅力. 前言有时候我们希望能对Spark UI进行一些定制化增强.并且我们希望尽可能不更改Spark的源码.为了达到此目标,我们会从如下三个方面进行阐述: 理解Spark UI的处理流程现有Executors页面分析自己编写一个HelloWord页面 Spark

Macaca app inspector-ios真机设备UI查看器

前言: App Inspector:浏览器端的移动设备 UI 查看器,使用树状态结构查看 UI 布局,自动生成 XPaths.官网:https://macacajs.github.io/app-inspector/cn/ 本次教程仅支持iOS,Mac 一.环境安装: 1.安装Node.js brew install node 2.安装macaca npm i -g macaca-cli 3.安装 ideviceinstaller brew install ideviceinstaller 4.安

spark集群启动步骤及web ui查看

集群启动步骤:先启动HDFS系统,在启动spark集群,最后提交jar到spark集群执行. 1.hadoop启动cd /home/***/hadoop-2.7.4/sbinstart-all.sh 3.spark启动cd /home/***/spark-2.2.0/sbinstart-all.sh 4.spark提交cd /home/***/spark-2.2.0/binspark-submit --master local --class com.helloworld.kmeans /hom

Spark累加器（Accumulator）

一.累加器简介在Spark中如果想在Task计算的时候统计某些事件的数量,使用filter/reduce也可以,但是使用累加器是一种更方便的方式,累加器一个比较经典的应用场景是用来在Spark Streaming应用中记录某些事件的数量. 使用累加器时需要注意只有Driver能够取到累加器的值,Task端进行的是累加操作. 创建的Accumulator变量的值能够在Spark Web UI上看到,在创建时应该尽量为其命名,下面探讨如何在Spark Web UI上查看累加器的值. 示例代码: p

本地跑 spark ui 报错

java.lang.NoSuchMethodError: javax.servlet.http.HttpServletRequest.isAsyncStarted()Z at org.spark_project.jetty.servlets.gzip.GzipHandler.handle(GzipHandler.java:) at org.spark_project.jetty.server.handler.ContextHandlerCollection.handle(ContextHandl

<spark> error：启动spark后查看进程，进程中master和worker进程冲突

启动hadoop再启动spark后jps,发现master进程和worker进程同时存在,调试了半天配置文件. 测试发现,当我关闭hadoop后 worker进程还是存在, 但是,当我再关闭spark之后再jps,发现worker进程依旧存在于是想起了在~/spark/conf/slaves 中配置的slave1 slave2 上面还有个localhost,直接删去localhost,然后kill -s 9 worker进程. 初次测试这样解决了error,但是不知道是不是暂时的,如若有问题

关于spark ui中executor显示的内存量与设置的内存量不符的问题

executor显示的内存量是实际执行程序使用的内存量,也就是排除bspark.storage.memoryFraction设置的比例外,然后使用的内存量. 默认是0.6,所以executory和driver默认只会使用40%的内存量

对Spark硬件配置的建议

对于Spark开发人员来说,一个比较普遍的问题就是如何合理的配置Spark的硬件?当然如何合理的对Spark集群进行硬件配置要视情况而定,在这里给出以下建议: 存储系统在大数据领域,有一句"名言":移动数据不如移动计算.主要因为数据量是庞大的,如果将数据从一个节点移动到另外一个节点甚至从一个局域网移动到另外一个局域网,就必然会牵涉到大量的磁盘IO和网络IO,这是非常影响性能的.而这里的计算可以理解为封装了你的业务处理代码的jar包,这个是很轻量的,相对于移动数据可有效缓解IO带来的弊

spark-submit配置说明

<Spark 官方文档>Spark配置 spark-1.6.0 原文地址 Spark配置 Spark有以下三种方式修改配置: Spark properties (Spark属性)可以控制绝大多数应用程序参数,而且既可以通过 SparkConf 对象来设置,也可以通过Java系统属性来设置. Environment variables (环境变量)可以指定一些各个机器相关的设置,如IP地址,其设置方法是写在每台机器上的conf/spark-env.sh中. Logging (日志)可以通过log

Apache Spark源码走读之21 -- WEB UI和Metrics初始化及数据更新过程分析

欢迎转载,转载请注明出处,徽沪一郎. 概要 WEB UI和Metrics子系统为外部观察监测Spark内部运行情况提供了必要的窗口,本文将简略的过一下其内部代码实现. WEB UI 先上图感受一下spark webui 假设当前已经在本机运行standalone cluster模式,输入http://127.0.0.1:8080将会看到如下页面 driver application默认会打开4040端口进行http监听,可以看到application相关的详细信息显示每个stage的详细信息

Spark之submit任务时的Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory

Spark submit任务到Spark集群时,会出现如下异常: Exception 1:Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient memory 查看Spark logs文件spark-Spark-org.apache.spark.deploy.master.Master-1-hadoop1.