spark日志+hivesql

windows本地读取hive，需要在resource里面将集群中的hive-site.xml下载下来。

<?xml version="1.0" encoding="UTF-8"?>

<!--Autogenerated by Cloudera Manager-->

<configuration>

  <property>

    <name>hive.metastore.local</name>

    <value>false</value>

  </property>

  <property>

    <name>hive.metastore.uris</name>

    <value>thrift://bn00:9083</value>

  </property>

  <property>

    <name>hive.metastore.client.socket.timeout</name>

    <value>300</value>

  </property>

  <property>

    <name>hive.metastore.warehouse.dir</name>

    <value>/user/hive/warehouse</value>

  </property>

  <property>

    <name>hive.warehouse.subdir.inherit.perms</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.auto.convert.join</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.auto.convert.join.noconditionaltask.size</name>

    <value>20971520</value>

  </property>

  <property>

    <name>hive.optimize.bucketmapjoin.sortedmerge</name>

    <value>false</value>

  </property>

  <property>

    <name>hive.smbjoin.cache.rows</name>

    <value>10000</value>

  </property>

  <property>

    <name>hive.server2.logging.operation.enabled</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.server2.logging.operation.log.location</name>

    <value>/var/log/hive/operation_logs</value>

  </property>

  <property>

    <name>mapred.reduce.tasks</name>

    <value>-1</value>

  </property>

  <property>

    <name>hive.exec.reducers.bytes.per.reducer</name>

    <value>67108864</value>

  </property>

  <property>

    <name>hive.exec.copyfile.maxsize</name>

    <value>33554432</value>

  </property>

  <property>

    <name>hive.exec.reducers.max</name>

    <value>1099</value>

  </property>

  <property>

    <name>hive.vectorized.groupby.checkinterval</name>

    <value>4096</value>

  </property>

  <property>

    <name>hive.vectorized.groupby.flush.percent</name>

    <value>0.1</value>

  </property>

  <property>

    <name>hive.compute.query.using.stats</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.vectorized.execution.enabled</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.vectorized.execution.reduce.enabled</name>

    <value>false</value>

  </property>

  <property>

    <name>hive.merge.mapfiles</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.merge.mapredfiles</name>

    <value>false</value>

  </property>

  <property>

    <name>hive.cbo.enable</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.fetch.task.conversion</name>

    <value>minimal</value>

  </property>

  <property>

    <name>hive.fetch.task.conversion.threshold</name>

    <value>268435456</value>

  </property>

  <property>

    <name>hive.limit.pushdown.memory.usage</name>

    <value>0.1</value>

  </property>

  <property>

    <name>hive.merge.sparkfiles</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.merge.smallfiles.avgsize</name>

    <value>16777216</value>

  </property>

  <property>

    <name>hive.merge.size.per.task</name>

    <value>268435456</value>

  </property>

  <property>

    <name>hive.optimize.reducededuplication</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.optimize.reducededuplication.min.reducer</name>

    <value>4</value>

  </property>

  <property>

    <name>hive.map.aggr</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.map.aggr.hash.percentmemory</name>

    <value>0.5</value>

  </property>

  <property>

    <name>hive.optimize.sort.dynamic.partition</name>

    <value>false</value>

  </property>

  <property>

    <name>hive.execution.engine</name>

    <value>mr</value>

  </property>

  <property>

    <name>spark.executor.memory</name>

    <value>1277794713</value>

  </property>

  <property>

    <name>spark.driver.memory</name>

    <value>966367641</value>

  </property>

  <property>

    <name>spark.executor.cores</name>

    <value>6</value>

  </property>

  <property>

    <name>spark.yarn.driver.memoryOverhead</name>

    <value>102</value>

  </property>

  <property>

    <name>spark.yarn.executor.memoryOverhead</name>

    <value>135</value>

  </property>

  <property>

    <name>spark.dynamicAllocation.enabled</name>

    <value>true</value>

  </property>

  <property>

    <name>spark.dynamicAllocation.initialExecutors</name>

    <value>1</value>

  </property>

  <property>

    <name>spark.dynamicAllocation.minExecutors</name>

    <value>1</value>

  </property>

  <property>

    <name>spark.dynamicAllocation.maxExecutors</name>

    <value>2147483647</value>

  </property>

  <property>

    <name>hive.metastore.execute.setugi</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.support.concurrency</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.zookeeper.quorum</name>

    <value>bn00,bn01,bn02</value>

  </property>

  <property>

    <name>hive.zookeeper.client.port</name>

    <value>2181</value>

  </property>

  <property>

    <name>hive.zookeeper.namespace</name>

    <value>hive_zookeeper_namespace_hive</value>

  </property>

  <property>

    <name>hbase.zookeeper.quorum</name>

    <value>bn00,bn01,bn02</value>

  </property>

  <property>

    <name>hbase.zookeeper.property.clientPort</name>

    <value>2181</value>

  </property>

  <property>

    <name>hive.cluster.delegation.token.store.class</name>

    <value>org.apache.hadoop.hive.thrift.MemoryTokenStore</value>

  </property>

  <property>

    <name>hive.server2.enable.doAs</name>

    <value>true</value>

  </property>

  <property>

    <name>hive.server2.use.SSL</name>

    <value>false</value>

  </property>

  <property>

    <name>spark.shuffle.service.enabled</name>

    <value>true</value>

  </property>

</configuration>

代码部分如下：

import java.util.ArrayList;

import java.util.List;

import org.apache.log4j.Level;

import org.apache.logging.log4j.LogManager;

import org.apache.logging.log4j.Logger;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.api.java.function.VoidFunction;

import org.apache.spark.sql.DataFrame;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SQLContext;

import org.apache.spark.sql.hive.HiveContext;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import scala.Tuple2;

import com.google.common.collect.Lists;

public class HiveAndSparkSQLApp {

	private static final Logger logger = LogManager.getLogger(App.class);

	static {

		// 设置日志级别清理

		org.apache.log4j.Logger.getLogger("org.apache.spark").setLevel(Level.WARN);

		org.apache.log4j.Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF);

	}

	@SuppressWarnings("serial")

	public static void main(String[] args) {

		// 调试环境,spark UI:http://localhost:4040/executors/

		SparkConf conf = new SparkConf().setMaster("local[4]").setAppName("test")

				.set("spark.testing.memory", "1147480000");

		// spark streaming context

		JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(5));

		// spark hive context

		final HiveContext hiveContext = new HiveContext(jssc.sparkContext());

		// spark SQL context

//		final SQLContext sqlContext = SQLContext.getOrCreate(jssc.sparkContext().sc());

		/**

		 *  远程的socket监听

		 *  在节点上，执行nc -lk 9998

		 *  若节点上没有安装nc工具，执行yum install nc.x86_64

		 *  之后直接发送消息即可

		 */

		JavaDStream<String> lines = jssc.socketTextStream("node0", 9998);

		lines.foreachRDD(new VoidFunction<JavaRDD<String>>() {

			@Override

			public void call(JavaRDD<String> rdd) throws Exception {

				// SQLContext sqlContext = SQLContext.getOrCreate(rdd.context());

				JavaRDD<Row> rowRDD = rdd.map(new Function<String, Row>() {

					@Override

					public Row call(String t) throws Exception {

						String[] splited = new String[] { System.currentTimeMillis() + "",

								System.currentTimeMillis() + "", System.currentTimeMillis() + "" };

						// 1.Row构建

						return RowFactory.create(Long.valueOf(splited[0]), splited[1], Long.valueOf(splited[2]));

					}

				});

				// 2.DF metadata专用结构体

				// 对Row具体指定元数据信息。

				List<StructField> structFields = new ArrayList<StructField>();

				// 列名称 列的具体类型（Integer Or String） 是否为空一般为true，实际在开发环境是通过for循环，而不是手动添加

				structFields.add(DataTypes.createStructField("id", DataTypes.LongType, true));

				structFields.add(DataTypes.createStructField("name", DataTypes.StringType, true));

				structFields.add(DataTypes.createStructField("age", DataTypes.LongType, true));

				// 构建StructType,用于最后DataFrame元数据的描述

				StructType structType = DataTypes.createStructType(structFields);

				// 3.构建DF

				DataFrame personsDF = hiveContext.createDataFrame(rowRDD, structType);

				// 4.注册为临时表

				personsDF.registerTempTable("test");

				DataFrame result = hiveContext.sql("select * from test");

				/**

				* 对结果进行处理，包括由DataFrame转换成为RDD<Row>,以及结果的持久化

				*/

				List<Row> listRow = result.javaRDD().collect();

				for (Row row : listRow) {

					logger.error("row:" + row);

				}

				hiveContext.sql("insert into recommendation_system.t111  select id from test");

			}

		});

		// 测试流，需要存在感~

		lines.flatMap(new FlatMapFunction<String, String>() {

			public Iterable<String> call(String msg) {

				System.err.println(msg);

				logger.error(msg);

				return Lists.newArrayList(" ".split(msg));

			}

		}).mapToPair(new PairFunction<String, String, Integer>() {

			@Override

			public Tuple2<String, Integer> call(String t) throws Exception {

				return new Tuple2<String, Integer>(t, 1);

			}

		}).reduceByKey(new Function2<Integer, Integer, Integer>() {

			@Override

			public Integer call(Integer v1, Integer v2) throws Exception {

				return v1 + v2;

			}

		}).print();

		jssc.start();

		jssc.awaitTermination();

	}

}

spark日志+hivesql的更多相关文章

Spark日志级别修改
摘要在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TR ...
Spark日志，及设置日志输出级别
Spark日志,及设置日志输出级别 1.全局应用设置 2.局部应用设置日志输出级别 3.Spark log4j.properties配置详解与实例(摘录于铭霏的记事本) 文章内容来源: 作者:大葱拌豆 ...
开启spark日志聚集功能
spark监控应用方式: 1)在运行过程中可以通过web Ui:4040端口进行监控 2)任务运行完成想要监控spark,需要启动日志聚集功能开启日志聚集功能方法: 编辑conf/spark-env ...
Spark日志清洗
日志数据清洗,主要采用spark 的定时任务,清洗出有效数据,并保存到hive数据仓库中存储.常用流程如下: 参考:https://gaojianhua.gitbooks.io/bigdata-wik ...
(转）spark日志配置
一.第一部分 1.spark2.1与hadoop2.7.3集成,spark on yarn模式下,需要对hadoop的配置文件yarn-site.xml增加内容,如下: <property> ...
spark日志配置及问题排查方式。
此文已由作者岳猛授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 任何时候日志都是定位问题的关键,spark也不会例外,合适的配置和获取spark的driver,am,及exe ...
设置Spark日志级别
编辑Spark中conf中配置文件log4j.properties 设置日志级别为WARN,即:log4j.rootCategory=WARN, console
Apache Spark技术实战之9 -- 日志级别修改
摘要在学习使用Spark的过程中,总是想对内部运行过程作深入的了解,其中DEBUG和TRACE级别的日志可以为我们提供详细和有用的信息,那么如何进行合理设置呢,不复杂但也绝不是将一个INFO换为TR ...
Spark2.3（四十）：如何使用java通过yarn api调度spark app，并根据appId监控任务，关闭任务，获取任务日志
背景: 调研过OOZIE和AZKABA,这种都是只是使用spark-submit.sh来提交任务,任务提交上去之后获取不到ApplicationId,更无法跟踪spark application的任务 ...

随机推荐

python类装饰器即__call__方法
上一篇中我对学习过程中的装饰器进行了总结和整理,这一节简单整理下类装饰器 1.类中的__call__方法: 我们在定义好一个类后,实例化出一个对象,如果对这个对象以直接在后边加括号的方式进行调用,程序 ...
Python实用黑科技——找出最大/最小的n个元素
需求: 快速的获取一个列表中最大/最小的n个元素. 方法: 最简便的方法是使用heapq模组的两个方法nlargest()和nsmallest(),例如: In [1]: import heapqIn ...
大哥带的DOM-XSS进阶eval构造XSS
0X01源码分析那么我们可以如何来构造语法呐??已知eval函数可以执行js 最终的输出是eval(this.xss="你提交的参数";) 那我们是不是可以从参数这里构造一个js ...
2019秋Java学期课程总结
眨眼间,Java这门课程就快要到了尾声,这门课程主要学习到搭建了Java的编译环境,安装eclipse软件,会用Java写一些简单的程序. 主要学习到的知识点有以下几点 1:通过写pta上的作业知道 ...
java.net.BindException: Problem binding to [node2:45454] java.net.BindException: Cannot assign requested address
主要原因是网络的问题.可参考官方给出的详细解释. http://wiki.apache.org/hadoop/BindException 总之,这是网络或者配置网络的问题,跟 hadoop 基本没有关 ...
C++类继承方式及实践
直接上图: 以及: 实践如下: #include <iostream> using namespace std; class Father{ private: int father1; i ...
Git-Runoob：Git 查看提交历史
ylbtech-Git-Runoob:Git 查看提交历史 1.返回顶部 1. Git 查看提交历史在使用 Git 提交了若干更新之后,又或者克隆了某个项目,想回顾下提交历史,我们可以使用 git ...
idea报错及解决
<b>root project 'test2': Web Facets/Artifacts will not be configured properly</b>Details ...
Jmeter(三)关联数组
上一篇贴子讲到了利用后置处理器中的正则表达式实现了关联, 可以获取特定的动态参数. 但是还不能实现phpwind的随机发贴. 要实现随机发贴, 我们只用做一点小小修改就可以实现了. 匹配数字: 在匹配 ...
JAVA 内存的那些事
(转载)固然Java屏蔽了一下内存细节,但是有时候,了解一下这些常识还是有好处的,特别是一些口试,总是盯着这些玩意不放手. JVM启动以后,会分配两类内存区域,一类用于开发职员使用,比如保存一些变量, ...

spark日志+hivesql

spark日志+hivesql的更多相关文章

随机推荐

热门专题