一次解决spark history server日志不见

通过cloudera的旧版VM（centos6版本）跑spark，之后，想看一下日志研究一下job，stage以及task，压力很大的发现完全没有日志，180088页面打开后：

Event log directory: hdfs://quickstart.cloudera:8020/user/spark/applicationHistory
No completed applications found!

　　回过头来还是真心感到spark做得人性化，因为在页面提示中给了两个很重要的信息：一个是spark的日志路径，一个是提示可能是因为权限导致日志无法显示（这个提示没有在贴上面），否则解决这个问题可能要花费更多的时间

　　后来网调发现是因为我使用的是root用户执行的；生成到日志文件到此目录下hdfs://quickstart.cloudera:8020/user/spark/applicationHistory，到此目录下一看用户是root:supergroup；改成spark；再刷http://quickstart.cloudera:18088/即可看到历史任务了；原来是没有权限读入。该权限即可；
　　之前为什么没有这种情况，之前的集群都没有root用户（只要在/user下面添加一个root即可添加hadoop用户），所以运行的时候都报错，于是切换为hdfs用户；hdfs用户生成的文件是hdfs的；
　　但是为什么会有问题？调查得知supergroup一般都是和系统的hadoop组绑定；通过下面的指令查看一下hadoop里面的组员

     grep 'hadoop:' /etc/group

     lid -g hadoop

　　你会发现做为hadoop组即superuser组只包含hdfs，hive等并没有spark；但是对于applicationHistory文件夹下权限是-rwxrwx--- 1 root supergroup，也就是只有root用户，以及supergroup具有全部权限，其他没有；所以即使是hdfs创建的文件仍然无法被spark读取，因为spark既不是hdfs，也没有包含在supergroup组中；
　　除非把spark放入到supergroup组中。调查说是和hadoop组绑定，那我就在hadoop组中添加了spark（需要首先启用spark用户）；但是没有毛用。
　　怎么放？Hadoop的HDFS自身是没有用户组控制，用的是操作系统的用户组，这样就意味着：supergroup和本地操作系统用户是有映射关系的，就是在hdfs的配置项中，dfs.permissions.supergroup, dfs.permissions.superusergroup（这两个其实是一个配置内容），默认是supergroup，是的，默认是supergroup，你需要做的是修改为本地一个组，比如hadoop。然后重启HDFS组件，spark服务也一并重启吧。
　　之后你再向hadoop组中添加spark，再刷页面，就发现日志可以看到了。

　　这个问题的关键在于要明白supergroup是和Linux一个组映射；向映射组中添加即可，但是要进行配置映射。

一次解决spark history server日志不见的更多相关文章

Spark学习笔记-使用Spark History Server
在运行Spark应用程序的时候,driver会提供一个webUI给出应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口,也就是说,Spark应用程序运行完后,将无法查看应用程序的历史记 ...
【转】Spark History Server 架构原理介绍
[From]https://blog.csdn.net/u013332124/article/details/88350345 Spark History Server 是spark内置的一个http ...
Spark History Server配置使用
Spark history Server产生背景以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息:但该WEB ...
Spark History Server产生背景
以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息:但该WEBUI随着Application的完成(成功/失败) ...
Spark集群之Spark history server额外配置
Note: driver在SparkContext使用stop()方法后才将完整的信息提交到指定的目录,如果不使用stop()方法,即使在指定目录中产生该应用程序的目录,history server ...
Spark history Server配置实用
Spark history Server产生背景以standalone运行模式为例,在运行Spark Application的时候,Spark会提供一个WEBUI列出应用程序的运行时信息:但该WEB ...
spark history server
参考:http://blog.csdn.net/lsshlsw/article/details/44786575 为什么需要historyServer? 在运行Spark Application的时候 ...
Spark history server 遇到的一些问题
最近学习Spark,看了一个视频,里面有提到启动spark后,一般都会启动Spark History Server.视频里把 spark.history.fs.logDirectory 设置成了Had ...
Spark 学习笔记之 Spark history Server 搭建
在hdfs上建立文件夹/directory hadoop fs -mkdir /directory 进入conf目录 spark-env.sh 增加以下配置 export SPARK_HISTORY ...

随机推荐

【转载】deque双向队列
继vector和queue之后,又发现一个很好用的东西. 本篇转载自http://blog.csdn.net/morewindows/article/details/6946811 deque双向队列 ...
FlashFXP 4.3.1 注册码
FlashFXP 4.3.1 注册码 --------start--------- FLASHFXPwQAOlhkgwQAAAAC6W5MNJwTnsl73nIraAU149tnCQS0hmZU3GG ...
Django 中设置分页页码，只显示当前页以及左右两页
设置后的效果如下: Django 给我们提供了分页的功能:`Paginator`和`Page`类都是用来做分页的.他们在Django中的路径为:`from django.core.paginator ...
python:打包成exe程序
1.需要安装 py2exe 2.示例代码: #exetest.py #创建一个gui界面,只用一个标签和按钮,无功能 from Tkinter import * win = Tk() label = ...
SCM-MANAGER-禁用用户
用管理远用户登录到scm-manager的管理界面http://*.*.*.*:8081/ 设置目标用户为禁用验证非 “active” 状态目标用户客户端不能pull 一直提示登录
前端url传递编码问题
JAVASCRIPT中URL 传递参数(特殊字符)解决方法及转码解码的介绍有些符号在URL中是不能直接传递的,如果要在URL中传递这些特殊符号,那么就要使用他们的编码了.下表中列出了一些URL特殊符 ...
浅谈title属性与alt属性
XHTML是CSS布局的基础,webjx.com一直强调XHTML知识的学习,重视语义和文档的结构.title 和alt 属性,给我最直观的感受就是,可以提高文档的适应性,并合理提高关键词密度.在XH ...
Flexible 弹性盒子模型之CSS order 属性
实例设置弹性盒对象元素的顺序: div#myRedDIV {order:2;} div#myBlueDIV {order:4;} div#myGreenDIV {order:3;} div#myPi ...
Android程序员学WEB前端(5)-HTML(5)-框架集-Sublime
转载请注明出处:http://blog.csdn.net/iwanghang/article/details/76576279 觉得博文有用,请点赞,请评论,请关注,谢谢!~ 框架集: index7. ...
D. Closest Equals(线段树)
题目链接: D. Closest Equals time limit per test 3 seconds memory limit per test 256 megabytes input stan ...

一次解决spark history server日志不见

一次解决spark history server日志不见的更多相关文章

随机推荐

热门专题