spark任务日志配置
样例代码:
public class SparkTest { private static Logger logger = Logger.getLogger(SparkTest.class); public static void main(String[] args) { String db = ConfigurationManager.getProperty(Constants.HIVE_DATABASE); SparkConf conf = new SparkConf(); SparkSession spark = SparkSession .builder() .appName("jointSitePlan") .master("local") .config(conf) .enableHiveSupport() .getOrCreate(); Logger.getLogger("org").setLevel(Level.WARN); spark.sql("use "+db+""); logger.info("本次测试使用数据库:"+db); spark.sql("select * from beam_pattern").write().mode(SaveMode.Overwrite).saveAsTable("testlog4j"); List<Row> list = spark.sql("select * from testlog4j limit 1").collectAsList(); if(list.isEmpty()) { logger.error("测试数据写入失败"); }else { logger.info("测试数据写入成功"); } } }
拷贝一份spark默认的log4j.properties文件,调整合适的日志级别,以及添加yarn日志聚合以方便到web ui界面查看日志
#spark log默认配置 log4j.rootLogger=${root.logger} root.logger=INFO,console log4j.appender.console=org.apache.log4j.ConsoleAppender log4j.appender.console.target=System.err log4j.appender.console.layout=org.apache.log4j.PatternLayout log4j.appender.console.layout.ConversionPattern=%d{yy/MM/}: %m%n shell.log.level=WARN log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.spark-project.jetty=WARN log4j.logger.org.spark-project.jetty.util.component.AbstractLifeCycle=ERROR log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO log4j.logger.org.apache.parquet=ERROR log4j.logger.parquet=ERROR log4j.logger.org.apache.hadoop.hive.metastore.RetryingHMSHandler=FATAL log4j.logger.org.apache.hadoop.hive.ql.exec.FunctionRegistry=ERROR log4j.logger.org.apache.spark.repl.Main=${shell.log.level} log4j.logger.org.apache.spark.api.python.PythonGatewayServer=${shell.log.level} #对cn.com.dtmobile下的程序进行日志优先级INFO输出 log4j.logger.cn.com.dtmobile=INFO log4j.appender.FILE=org.apache.log4j.DailyRollingFileAppende log4j.appender.FILE.Threshold=INFO #用于日志聚合 log4j.appender.File.file=${spark.yarn.app.container.log.dir}/capacitySimulation.log log4j.appender.FILE.DatePattern='.'yyyy-MM-dd log4j.appender.FILE.layout=org.apache.log4j.PatternLayout log4j.appender.FILE.layout.ConversionPattern=[%-5p] [%d{yyyy-MM-}:%M:%L] %m%n
通过--files指定log4j.properties文件,注意需要对driver和executor指定extraJavaOptions使用上面我们编辑好的log4j.properties文件。
spark2-submit \ --class cn.com.dtmobile.test.SparkTest \ --master yarn \ --deploy-mode cluster \ --driver-memory 1G \ --executor-memory 1G \ --num-executors \ --executor-cores \ --driver-java-options "-Dlog4j.configuration=log4j.properties" \ --conf spark.executor.extraJavaOptions="-Dlog4j.configuration=log4j.properties" \ --files /home/etluser/kong/log4j.properties \ testlog.jar
指定log4j配置文件也可以在代码中通过sparkConf传入,此外也可以针对driver和executor指定不同的log4j配置文件
conf.set("spark.executor.extraJavaOptions", "-XX:+UseG1GC -Dlog4j.configuration=log4j.properties"); conf.set("spark.driver.extraJavaOptions", "-XX:+UseG1GC -Dlog4j.configuration=log4j.properties"); conf.set("spark.files","hdfs:/path/to/file")//注意这里只需要加上个hdfs的schema即可,不需要ip port.
到spark job web ui界面查看日志
// :: INFO client.RMProxy: Connecting to ResourceManager at master01.hadoop.dtmobile.cn/ // :: INFO yarn.YarnRMClient: Registering the ApplicationMaster // :: INFO yarn.YarnAllocator: Will request executor container(s), each with core(s) and MB memory (including MB of overhead) // :: INFO cluster.YarnSchedulerBackend$YarnSchedulerEndpoint: ApplicationMaster registered as NettyRpcEndpointRef(spark://YarnAM@worker02.hadoop.dtmobile.cn:33519) // :: INFO yarn.YarnAllocator: Submitted unlocalized container requests. // :: INFO yarn.ApplicationMaster: Started progress reporter thread with (heartbeat : , initial allocation : ) intervals // :: INFO yarn.YarnAllocator: Launching container container_1567385368849_0060_01_000002 on host worker02.hadoop.dtmobile.cn // :: INFO yarn.YarnAllocator: Launching container container_1567385368849_0060_01_000003 on host worker02.hadoop.dtmobile.cn // :: INFO yarn.YarnAllocator: Received containers from YARN, launching executors on of them. // :: INFO cluster.YarnSchedulerBackend$YarnDriverEndpoint: Registered executor NettyRpcEndpointRef(spark-client://Executor) (172.30.5.213:35698) with ID 1 // :: INFO cluster.YarnSchedulerBackend$YarnDriverEndpoint: Registered executor NettyRpcEndpointRef(spark-client://Executor) (172.30.5.213:35700) with ID 2 // :: INFO storage.BlockManagerMasterEndpoint: Registering block manager worker02.hadoop.dtmobile.cn: with , worker02.hadoop.dtmobile.cn, , None) // :: INFO storage.BlockManagerMasterEndpoint: Registering block manager worker02.hadoop.dtmobile.cn: with , worker02.hadoop.dtmobile.cn, , None) // :: INFO cluster.YarnClusterSchedulerBackend: SchedulerBackend is ready for scheduling beginning after reached minRegisteredResourcesRatio: 0.8 // :: INFO cluster.YarnClusterScheduler: YarnClusterScheduler.postStartHook done // :: INFO test.SparkTest: 本次测试使用数据库:capacity // :: INFO test.SparkTest: 测试数据写入成功
关于log4j.properties更加细粒度的设置可以参考如下:
################################################################################ #①配置根Logger,其语法为: # #log4j.rootLogger = [level],appenderName,appenderName2,... #level是日志记录的优先级,分为OFF,TRACE,DEBUG,INFO,WARN,ERROR,FATAL,ALL ##Log4j建议只使用四个级别,优先级从低到高分别是DEBUG,INFO,WARN,ERROR #通过在这里定义的级别,您可以控制到应用程序中相应级别的日志信息的开关 #比如在这里定义了INFO级别,则应用程序中所有DEBUG级别的日志信息将不被打印出来 #appenderName就是指定日志信息输出到哪个地方。可同时指定多个输出目的 ################################################################################ ################################################################################ #②配置日志信息输出目的地Appender,其语法为: # #log4j.appender.appenderName = fully.qualified.name.of.appender.class #log4j.appender.appenderName.optionN = valueN # #Log4j提供的appender有以下几种: #)org.apache.log4j.ConsoleAppender(输出到控制台) #)org.apache.log4j.FileAppender(输出到文件) #)org.apache.log4j.DailyRollingFileAppender(每天产生一个日志文件) #)org.apache.log4j.RollingFileAppender(文件大小到达指定尺寸的时候产生一个新的文件) #)org.apache.log4j.WriterAppender(将日志信息以流格式发送到任意指定的地方) # #)ConsoleAppender选项属性 # -Threshold = DEBUG:指定日志消息的输出最低层次 # -ImmediateFlush = TRUE:默认值是true,所有的消息都会被立即输出 # -Target = System.err:默认值System.out,输出到控制台(err为红色,out为黑色) # #)FileAppender选项属性 # -Threshold = INFO:指定日志消息的输出最低层次 # -ImmediateFlush = TRUE:默认值是true,所有的消息都会被立即输出 # -File = C:\log4j.log:指定消息输出到C:\log4j.log文件 # -Append = FALSE:默认值true,将消息追加到指定文件中,false指将消息覆盖指定的文件内容 # -Encoding = UTF-:可以指定文件编码格式 # #)DailyRollingFileAppender选项属性 # -Threshold = WARN:指定日志消息的输出最低层次 # -ImmediateFlush = TRUE:默认值是true,所有的消息都会被立即输出 # -File = C:\log4j.log:指定消息输出到C:\log4j.log文件 # -Append = FALSE:默认值true,将消息追加到指定文件中,false指将消息覆盖指定的文件内容 # -DatePattern='.'yyyy-ww:每周滚动一次文件,即每周产生一个新的文件。还可以按用以下参数: # '.'yyyy-MM:每月 # '.'yyyy-ww:每周 # '.'yyyy-MM-dd:每天 # '.'yyyy-MM-dd-a:每天两次 # '.'yyyy-MM-dd-HH:每小时 # '.'yyyy-MM-dd-HH-mm:每分钟 # -Encoding = UTF-:可以指定文件编码格式 # #)RollingFileAppender选项属性 # -Threshold = ERROR:指定日志消息的输出最低层次 # -ImmediateFlush = TRUE:默认值是true,所有的消息都会被立即输出 # -File = C:/log4j.log:指定消息输出到C:/log4j.log文件 # -Append = FALSE:默认值true,将消息追加到指定文件中,false指将消息覆盖指定的文件内容 # -MaxFileSize = 100KB:后缀可以是KB,MB,GB.在日志文件到达该大小时,将会自动滚动.如:log4j.log. # -MaxBackupIndex = :指定可以产生的滚动文件的最大数 # -Encoding = UTF-:可以指定文件编码格式 ################################################################################ ################################################################################ #③配置日志信息的格式(布局),其语法为: # #log4j.appender.appenderName.layout = fully.qualified.name.of.layout.class #log4j.appender.appenderName.layout.optionN = valueN # #Log4j提供的layout有以下几种: #)org.apache.log4j.HTMLLayout(以HTML表格形式布局) #)org.apache.log4j.PatternLayout(可以灵活地指定布局模式) #)org.apache.log4j.SimpleLayout(包含日志信息的级别和信息字符串) #)org.apache.log4j.TTCCLayout(包含日志产生的时间、线程、类别等等信息) #)org.apache.log4j.xml.XMLLayout(以XML形式布局) # #)HTMLLayout选项属性 # -LocationInfo = TRUE:默认值false,输出java文件名称和行号 # -Title=Struts Log Message:默认值 Log4J Log Messages # #)PatternLayout选项属性 # -ConversionPattern = %m%n:格式化指定的消息(参数意思下面有) # #)XMLLayout选项属性 # -LocationInfo = TRUE:默认值false,输出java文件名称和行号 # #Log4J采用类似C语言中的printf函数的打印格式格式化日志信息,打印参数如下: # %m 输出代码中指定的消息 # %p 输出优先级,即DEBUG,INFO,WARN,ERROR,FATAL # %r 输出自应用启动到输出该log信息耗费的毫秒数 # %c 输出所属的类目,通常就是所在类的全名 # %t 输出产生该日志事件的线程名 # %n 输出一个回车换行符,Windows平台为“\r\n”,Unix平台为“\n” # %d 输出日志时间点的日期或时间,默认格式为ISO8601,也可以在其后指定格式 # 如:%d{yyyy年MM月dd日 HH:mm:ss,SSS},输出类似:2012年01月05日 ::, # %l 输出日志事件的发生位置,包括类目名、发生的线程,以及在代码中的行数 # 如:Testlog.main(TestLog.java:) # %F 输出日志消息产生时所在的文件名称 # %L 输出代码中的行号 # %x 输出和当前线程相关联的NDC(嵌套诊断环境),像java servlets多客户多线程的应用中 # %% 输出一个"%"字符 # # 可以在%与模式字符之间加上修饰符来控制其最小宽度、最大宽度、和文本的对齐方式。如: # %5c: 输出category名称,最小宽度是5,category<,默认的情况下右对齐 # %-5c:输出category名称,最小宽度是5,category<,"-"号指定左对齐,会有空格 # %.5c:输出category名称,最大宽度是5,category>,就会将左边多出的字符截掉,<5不会有空格 # %.30c:category名称<20补空格,并且右对齐,>30字符,就从左边交远销出的字符截掉 ################################################################################ ################################################################################ #④指定特定包的输出特定的级别 #log4j.logger.org.springframework=DEBUG ################################################################################ #OFF,systemOut,logFile,logDailyFile,logRollingFile,logMail,logDB,ALL log4j.rootLogger =ALL,systemOut,logFile,logDailyFile,logRollingFile,logMail,logDB #输出到控制台 log4j.appender.systemOut = org.apache.log4j.ConsoleAppender log4j.appender.systemOut.layout = org.apache.log4j.PatternLayout log4j.appender.systemOut.layout.ConversionPattern = [%-5p][%-22d{yyyy/MM/dd HH:mm:ssS}][%l]%n%m%n log4j.appender.systemOut.Threshold = DEBUG log4j.appender.systemOut.ImmediateFlush = TRUE log4j.appender.systemOut.Target = System.out #输出到文件 log4j.appender.logFile = org.apache.log4j.FileAppender log4j.appender.logFile.layout = org.apache.log4j.PatternLayout log4j.appender.logFile.layout.ConversionPattern = [%-5p][%-22d{yyyy/MM/dd HH:mm:ssS}][%l]%n%m%n log4j.appender.logFile.Threshold = DEBUG log4j.appender.logFile.ImmediateFlush = TRUE log4j.appender.logFile.Append = TRUE log4j.appender.logFile.File = ../Struts2/WebRoot/log/File/log4j_Struts.log log4j.appender.logFile.Encoding = UTF- #按DatePattern输出到文件 log4j.appender.logDailyFile = org.apache.log4j.DailyRollingFileAppender log4j.appender.logDailyFile.layout = org.apache.log4j.PatternLayout log4j.appender.logDailyFile.layout.ConversionPattern = [%-5p][%-22d{yyyy/MM/dd HH:mm:ssS}][%l]%n%m%n log4j.appender.logDailyFile.Threshold = DEBUG log4j.appender.logDailyFile.ImmediateFlush = TRUE log4j.appender.logDailyFile.Append = TRUE log4j.appender.logDailyFile.File = ../Struts2/WebRoot/log/DailyFile/log4j_Struts log4j.appender.logDailyFile.DatePattern = '.'yyyy-MM-dd-HH-mm'.log' log4j.appender.logDailyFile.Encoding = UTF- #设定文件大小输出到文件 log4j.appender.logRollingFile = org.apache.log4j.RollingFileAppender log4j.appender.logRollingFile.layout = org.apache.log4j.PatternLayout log4j.appender.logRollingFile.layout.ConversionPattern = [%-5p][%-22d{yyyy/MM/dd HH:mm:ssS}][%l]%n%m%n log4j.appender.logRollingFile.Threshold = DEBUG log4j.appender.logRollingFile.ImmediateFlush = TRUE log4j.appender.logRollingFile.Append = TRUE log4j.appender.logRollingFile.File = ../Struts2/WebRoot/log/RollingFile/log4j_Struts.log log4j.appender.logRollingFile.MaxFileSize = 1MB log4j.appender.logRollingFile.MaxBackupIndex = log4j.appender.logRollingFile.Encoding = UTF- #用Email发送日志 log4j.appender.logMail = org.apache.log4j.net.SMTPAppender log4j.appender.logMail.layout = org.apache.log4j.HTMLLayout log4j.appender.logMail.layout.LocationInfo = TRUE log4j.appender.logMail.layout.Title = Struts2 Mail LogFile log4j.appender.logMail.Threshold = DEBUG log4j.appender.logMail.SMTPDebug = FALSE log4j.appender.logMail.SMTPHost = SMTP..com log4j.appender.logMail.From = xly3000@.com log4j.appender.logMail.To = xly3000@gmail.com #log4j.appender.logMail.Cc = xly3000@gmail.com #log4j.appender.logMail.Bcc = xly3000@gmail.com log4j.appender.logMail.SMTPUsername = xly3000 log4j.appender.logMail.SMTPPassword = log4j.appender.logMail.Subject = Log4j Log Messages #log4j.appender.logMail.BufferSize = #log4j.appender.logMail.SMTPAuth = TRUE #将日志登录到MySQL数据库 log4j.appender.logDB = org.apache.log4j.jdbc.JDBCAppender log4j.appender.logDB.layout = org.apache.log4j.PatternLayout log4j.appender.logDB.Driver = com.mysql.jdbc.Driver log4j.appender.logDB.URL = jdbc:mysql://127.0.0.1:3306/xly log4j.appender.logDB.User = root log4j.appender.logDB.Password = log4j.appender.logDB.Sql = INSERT INTOT_log4j(project_name,create_date,level,category,file_name,thread_name,line,all_category,message)values('Struts2','%d{yyyy-MM-ddHH:mm:ss}','%p','%c','%F','%t','%L','%l','%m')
spark任务日志配置的更多相关文章
- Spark log4j日志配置详解(转载)
一.spark job日志介绍 spark中提供了log4j的方式记录日志.可以在$SPARK_HOME/conf/下,将 log4j.properties.template 文件copy为 l ...
- Spark的日志配置
在測试spark计算时.将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是imposible的.由于作业是提交到yarn的集群上,so 去yarn集群 ...
- spark log4j 日志配置
现在我们介绍spark (streaming) job独立配置的log4j的方法,通过查看官方文档,要为应用主程序(即driver端)或执行程序使(即executor端)自定义log4j配置,需要两步 ...
- spark日志配置及问题排查方式。
此文已由作者岳猛授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 任何时候日志都是定位问题的关键,spark也不会例外,合适的配置和获取spark的driver,am,及exe ...
- spark入门(四)日志配置
1 背景 在测试spark计算时,将作业提交到yarn(模式–master yarn-cluster)上,想查看print到控制台这是很难的,因为作业是提交到yarn的集群上,所以,去yarn集群上看 ...
- Windows下Spark单机环境配置
1. 环境配置 a) java环境配置: JDK版本为1.7,64位: 环境变量配置如下: JAVA_HOME为JDK安装路径,例如D:\software\workSoftware\JAVA 在pa ...
- django 1.8 日志配置
django 1.8 日志配置 以下为setings配置logging代码片段 BASE_DIR = os.path.dirname(os.path.dirname(os.path.abspath(_ ...
- nginx日志配置
nginx日志配置 http://www.ttlsa.com/linux/the-nginx-log-configuration/ 日志对于统计排错来说非常有利的.本文总结了nginx日志相关的配置如 ...
- 日志配置logback
在选择项目日志框架时,发现log4j的作者开发了新的日志框架,据说性能提高不少,那就选它了,不过,除了配置上有点不习惯外,最重要的一点 ,打印线程号这个功能依然没有(打印线程名这个东西是在是个鸡肋). ...
随机推荐
- 至少你要了解RSS
本文概要: 1.RSS是什么,有什么作用? 2.是不是所有的网站都有RSS功能? 3.没有RSS功能的网站如何订阅? 4.RSS是否已经过时? 5.推荐一些热门的RSS订阅地址 1.RSS是什么,有什 ...
- mysql5.6源码安装(转)
mysql5.6源码安装 转自 jabbok博客园 https://www.cnblogs.com/jabbok/p/9418344.html 1 编译安装 1 2 3 4 5 6 groupadd ...
- Python中turtle绘图学习笔记和实例
一.既然本次讲的主角是turtle函数库,那肯定得先了解一下它是什么 turtle库是Python语言中一个很流行的绘制图像的函数库,想象一个小乌龟,在一个横轴为x.纵轴为y的坐标系原点,(0,0)位 ...
- Java枚举类型enum使用详解
java的Enum枚举类型终于在j2se1.5出现了.之前觉得它只不过是鸡肋而已,可有可无.毕竟这么多年来,没有它,大家不都过得很好吗?今日看<Thinking in Java>4th ...
- leetcode844 Backspace String Compare
""" Given two strings S and T, return if they are equal when both are typed into empt ...
- sklearn的train_test_split()各函数参数含义解释(非常全)
sklearn之train_test_split()函数各参数含义(非常全) 在机器学习中,我们通常将原始数据按照比例分割为“测试集”和“训练集”,从 sklearn.model_selection ...
- hibernate部分源码解析and解决工作上关于hibernate的一个问题例子(包含oracle中新建表为何列名全转为大写且通过hibernate取数时如何不用再次遍历将列名(key)值转为小写)
最近在研究系统启动时将数据加载到内存非常耗时,想着是否有办法优化!经过日志打印测试发现查询时间(查询时间:将数据库数据查询到系统中并转为List<Map>或List<*.Class& ...
- Ternsorflow 学习:005-MNIST入门 实现模型
前言 在上一讲中,我们通过分析选用了softmax模型,并用tf创建之.本讲的内容就是为了训练这个模型以便于测试. 训练模型 为了训练我们的模型,我们首先需要定义一个指标来评估这个模型是好的.其实,在 ...
- 【微信小程序】数组操作
Page({ data: { list:[{ id:1, name:'应季鲜果', count:1 },{ id:2, name:'精致糕点', count:6 },{ id:3, name:'全球美 ...
- web.xml文件中context-param的作用
转 <context-param>的作用:web.xml的配置中<context-param>配置作用1. 启动一个WEB项目的时候,容器(如:Tomcat)会去读它的配置文件 ...