Hive 参数】的更多相关文章

hive中参数分为三类,第一种system环境变量信息,是系统环境变量信息:第二种是env环境变量信息,是当前用户环境变量信息:第三种是hive参数变量信息,是由hive-site.xml文件定义的以及当前hive会话定义的环境变量信息.其中第三种hive参数变量信息中又由hadoop hdfs参数(直接是hadoop的).mapreduce参数.metastore元数据存储参数.metastore连接参数以及hive运行参数构成. Hive-0.13.1-cdh5.3.6参数变量信息详解 参数…
1.hive当中的参数.变量都是以命名空间开头 2.通过${}方式进行引用,其中system.env下的变量必须以前缀开头 3.hive参数设置方式 1.修改配置文件${HIVE_HOME}/conf/hive-site.xml 2.启动hive cli时,通过 --hiveconf key=value的方式进行设置 例如:hive --hiveconf hive.cli.print.header=true 3.进入cli控制台之后,通过使用set命令设置 例如:set hive.cli.pri…
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk8 hadoop-3.1.1 apache-hive-3.1.1 一.Hive 参数 1.Hive 参数类型hive当中的参数.变量,都是以命名空间开头: 通过${}方式进行引用,其中system.env下的变量必须以前缀开头: 在Hive CLI查看参数 #显示所有参数 hive>set; #查看单个参数 hive> set hive.cli.print.h…
第一部分:Hive 参数 hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000  hive.exec.dynamic.partition •说明:是否为自动分区 •默认值:false hive.mapred.reduce.tasks.speculative.execution •说明:是否打开推测执行 •默认值:true hive.input.format •说明:Hive默认的input forma…
Hive参数操作和运行方式 1.Hive参数操作 1.hive参数介绍 ​ hive当中的参数.变量都是以命名空间开头的,详情如下表所示: 命名空间 读写权限 含义 hiveconf 可读写 hive-site.xml当中的各配置变量例:hive --hiveconf hive.cli.print.header=true system 可读写 系统变量,包含JVM运行参数等例:system:user.name=root env 只读 环境变量例:env:JAVA_HOME hivevar 可读写…
1.hive数据仓库权限问题: set hive.warehouse.subdir.inherit.perms=true; 2.HiveServer2的内存 连接的个数越多压力越大,可以加大内存:可以通过-Xmx设置,在脚本中设置:-Xmx=2048m 甚至 -Xmx=4g 3.关闭推测式任务:默认是打开的 set mapreduce.reduce.speculative=false; set mapred.map.tasks.speculative.execution=false; set m…
CLI参数 两种修改方式: 1)启动时 hive --hiveconf  hive.cli.print.current.db=true 2)修改当前用户home目录下 .hiverc文件,hive cli默认加载此文件   每个配置项以分号结束 显示当前数据库名 hive.cli.print.current.db=true 小数据集自动本地执行 hive.exec.mode.local.auto=true 打印字段名称 hive.cli.print.header=true 严格模式  hive.…
Hive中有一些参数是系统给提供给用户的,我们可以通过这些参数的设置可以让Hive在不同的模式下工作,或者改变显示的效果. 1.通过set对参数值进行设定,这种设置只能是在本次会话有效,退出Hive就会失效: hive (default)> set hive.exec.dynamic.partition.mode=nostrict;hive (default)> INSERT OVERWRITE TABLE emp > PARTITION(province,city) > SELE…
hive.exec.mode.local.auto 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行) true hive.exec.mode.local.auto.inputbytes.max 如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆. 134217728L hive.exec.mode.local.auto.tasks.max 如果 hive.exec.mode.…
一.hive常用参数 0.常用参数 --@Name: --@Description: --@Type:全量加载 --@Author:--- --@CreateDate: --@Target: --@SourceTable: --@ModifyBy: --@ModifyDate: --@ModifyDesc: --@Copyright --设置作业名 set mapred.job.name = hive_xxx(${statisdate}); --Map输入合并大小 ; ; ; ; set hiv…
调优 Hive提供三种可以改变环境变量的方法,分别是: (1)修改${HIVE_HOME}/conf/hive-site.xml配置文件: 所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hive-site.xml文件,放在${HIVE_HOME}/conf目录下.里面可以对一些配置进行个性化设定.这里做的配置都全局用户都生效,而且是永久的. (2)命令行参数: 在启动Hive cli的时候进行配置,可以在命…
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一. 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个完美的数仓,所以Hive性能调优是我们大数据从业者必须掌握的技能.本文将给大家讲解Hive性能调优的一些方法及技巧. Hive性能调优的方式 为什么都说性能优化这项工作是比较难的,因为一项技术的优化,必然是一项综合性的工作,它是多门技术的结合.我们如果只局限于一种技术,那么肯定做不好优化的. 下面将从多个完全不同的角度…
-- 设置hive的计算引擎为spark set hive.execution.engine=spark; -- 修复分区 set hive.msck.path.validation=ignore; msck repair table sub_ladm_app_click_day_cnt; -- 打印表头 set hive.cli.print.header=true; set hive.cli.print.row.to.vertical=true; ;   -- 显示当前数据库 set hive…
hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000  hive.exec.dynamic.partition •说明:是否为自动分区 •默认值:false hive.mapred.reduce.tasks.speculative.execution •说明:是否打开推测执行 •默认值:true hive.input.format •说明:Hive默认的input format •默认值: org.a…
1.hive参数优化之默认启用本地模式 启动hive本地模式参数,一般建议将其设置为true,即时刻启用: hive (chavin)> set hive.exec.mode.local.auto;     hive.exec.mode.local.auto=false 2.设置hive执行模式 hive (default)> set hive.mapred.mode; hive.mapred.mode=nonstrict 参数hive.mapred.mode控制着hive的执行模式,如果设置…
1.hive 参数.变量 1.1hive的命名空间: hive当中的参数.变量,都是以命名空间开头  …
1 . Hive  命令行 输入$HIVE_HOME/bin/hive –H 或者 –help 可以显示帮助选项: 说明: 1. -i 初始化 HQL 文件. 2. -e 从命令行执行指定的 HQL 3. -f 执行 HQL 脚本 4. -v 输出执行的 HQL 语句到控制台 5. -p <port> connect to Hive Server on port number 6. -hiveconf x=y Use this to set hive/hadoop configuration…
Hive Shell参数 1.Hive命令行 语法结构 hive [-hiveconf x=y]* [<-i filename>]* [<-f filename>|<-e query-string>] [-S] 说明: 1. -i 从文件初始化HQL. 2. -e从命令行执行指定的HQL 3. -f 执行HQL脚本 4. -v 输出执行的HQL语句到控制台 5. -p <port> connect to Hive Server on port number…
一.join优化 做join之前对数据进行预处理,减少参加join的数据量,把数据量少的表放入内存中,制作map端的join 应该将条目少的表/子查询放在 Join 操作符的左边.原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率. Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中. SELECT…
hive分为CLI(command line)(用的比较多) JDBC/ODBC-ThriftServer hiveServer(hive -service hiveserver),JDBC访问,一个客户端连接数,需要建立pool池,内存损耗极大,容易内存溢出(数据量太大不用) web gui(基本不用) Metastore (存储字段信息和数据存储HDFS的信息) Complier(编译器):对sql查询语句进行语意分析并通过metastore中查找表和分区的元信息,生成执行计划. Optim…
Hive是什么? Hive是蜂房的意思,为什么hadoop上的这层数据仓库叫Hive? 因为生物学上蜂房是一个结构相当精良的建筑,取名Hive足见则个数据仓库在数据存储上也是堪称精良的.Hive是Facebook开发的构建于Hadoop集群之上的数据仓库应用,它提供了类似于SQL语法的HQL语句作为数据访问接口,这使得普通分析人员的应用Hadoop的学习曲线变缓. 第一:Hive是建立在 Hadoop 上的数据仓库基础构架. 第二:很低的学习代价便可以让用户在Hadoop中进行存储.查询和分析存…
1.hive的数据加载方式 1.1.load data 这中方式一般用于初始化的时候 load data [local] inpath '...' [overwrite] into table t1 [partition(...)] -- 如果有local是从linux磁盘加载,如果没带local是从hdfs的某个目录移动到hive中 -- 带上overwrite会覆盖掉表中原来的数据 -- partition 加载到指定分区 1.2.使用查询语句向表中插入数据 insert overwrite…
一.join优化 Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边.原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率. Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中. 案例: SELECT a.val, b.val, c.val FROM a JOIN b ON…
本文转载自:http://blog.csdn.net/haojun186/article/details/7977565 1.  HIVE结构 Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 map…
一.Hive的基本概念 1.1 hive是什么? (1)Hive是建立在hadoop数据仓库基础之上的一个基础架构: (2)相当于hadoop之上的一个客户端,可以用来存储.查询和分析存储在hadoop中的数据: (3)是一种SQL解析引擎,能够将SQL转换成Map/Reduce中的Job在hadoop上执行. 1.2 hive的数据存储特点 (1)数据存储是基于hadoop的HDFS: (2)没有专门的数据存储格式: (3)存储结构主要有:数据库.文件(默认可以直接加载文本文件).表.视图.索…
个人认为总体两种思想: 1.让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标 再好的硬件没有充分利用起来,都是白扯淡. 比如: (1)  启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做 通常来说前面的任务启动可以稍带一起做的事情就一起做了,以便后续的多个任务重用,与此紧密相连的是模型设计,好的模型特别重要. (2) 合理设置reduce个数 reduce个数过少没有真正发挥hadoop并行计算的威力,但reduce个数过多,会造成大量小文件问题,数据量…
要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜. 理解hadoop的核心能力,是hive优化的根本. 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜. 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的.map reduce作业初始化的时间是比较长的. 3.对sum,count来说,不存在数据倾斜问题. 4.对count(distinct )…
一.本课程是怎么样的一门课程(全面介绍)    1.1.课程的背景       作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商.       Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要.       Hive作业的规模决定着优化层级,一个Hive作业的优化和一万的Hive作业的优化截然不同.       拥有1万多个Hive作业的大电商如何进行Hiv…
(2015.07.22Hive笔记) 一.Hive的安装 1.1Hive的安装过程 下载hive源文件(apache-hive-0.14.0-bin.tar.gz ) 解压hive文件 进入$HIVE_HOME/conf/修改文件 cp hive-env.sh.template hive-env.sh cp hive-default.xml.template(模板文档,提供了hive很多参数) hive-site.xml 修改$HIVE_HOME/conf的hive-env.sh,增加以下三行…
Hive 的简单使用及调优参考文档   HIVE的使用 命令行界面 使用一下命令查看hive的命令行页面, hive --help --service cli 简化命令为hive –h 会输出下面的这些东西 -d,--define <key=value> Variable subsitution to apply to hive commands. e.g. -d A=B or --define A=B --database <databasename> Specify the d…