Hive 配置项详解
hive.ddl.output.format:
hive的ddl语句的输出格式,
默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置;
hive.exec.script.wrapper:
hive调用脚本时的包装器,默认是null,
如果设置为python的话,那么在做脚本调用操作时语句会变为python <script command>,null的话就是直接执行<script command>;
hive.exec.plan:
hive执行计划的文件路径,
默认是null,会在运行时自动设置,形如hdfs://xxxx/xxx/xx;
hive.exec.scratchdir:
hive用来存储不同阶段的map/reduce的执行计划的目录,同时也存储中间输出结果,
默认是/tmp/<user.name>/hive,
我们实际一般会按组区分,然后组内自建一个tmp目录存储;
hive.exec.submitviachild:
在非local模式下,决定hive是否要在独立的jvm中执行map/reduce;
默认是false,也就是说默认map/reduce的作业是在hive的jvm上去提交的;
hive.exec.script.maxerrsize:
当用户调用transform或者map或者reduce执行脚本时,最大的序列化错误数,
默认100000,一般也不用修改;
hive.exec.compress.output:
一个查询的最后一个map/reduce任务输出是否被压缩的标志,
默认为false,但是一般会开启为true,好处的话,节省空间不说,在不考虑cpu压力的时候会提高io;
hive.exec.compress.intermediate:
类似上个,在一个查询的中间的map/reduce任务输出是否要被压缩,
默认false,
hive.jar.path:
当使用独立的jvm提交作业时,hive_cli.jar所在的位置,
无默认值;
hive.aux.jars.path:
当用户自定义了UDF或者SerDe,这些插件的jar都要放到这个目录下,
无默认值;
hive.partition.pruning:
在编译器发现一个query语句中使用分区表然而未提供任何分区谓词做查询时,抛出一个错误从而保护分区表,
默认是nonstrict;(待读源码后细化,网上资料极少)
hive.map.aggr:
map端聚合是否开启,
默认开启;
hive.join.emit.interval:
在发出join结果之前对join最右操作缓存多少行的设定,
默认1000;hive jira里有个对该值设置太小的bugfix;
hive.map.aggr.hash.percentmemory:
map端聚合时hash表所占用的内存比例,
默认0.5,这个在map端聚合开启后使用,
hive.default.fileformat:
CREATE TABLE语句的默认文件格式,
默认TextFile,其他可选的有SequenceFile、RCFile还有Orc;
hive.merge.mapfiles:
在只有map的作业结束时合并小文件,
默认开启true;
hive.merge.mapredfiles:
在一个map/reduce作业结束后合并小文件,
默认不开启false;
hive.merge.size.per.task:
作业结束时合并文件的大小,
默认256MB;
hive.merge.smallfiles.avgsize:
在作业输出文件小于该值时,起一个额外的map/reduce作业将小文件合并为大文件,小文件的基本阈值,设置大点可以减少小文件个数,需要mapfiles和mapredfiles为true,
默认值是16MB;
mapred.reduce.tasks:
每个作业的reduce任务数,
默认是hadoop client的配置1个;
hive.exec.reducers.bytes.per.reducer:
每个reducer的大小,
默认是1G,输入文件如果是10G,那么就会起10个reducer;
hive.exec.reducers.max:
reducer的最大个数,如果在mapred.reduce.tasks设置为负值,那么hive将取该值作为reducers的最大可能值。当然还要依赖(输入文件大小/hive.exec.reducers.bytes.per.reducer)所得出的大小,取其小值作为reducer的个数,
hive默认是999;
hive.fileformat.check:
加载数据文件时是否校验文件格式,
默认是true;
hive.groupby.skewindata:
group by操作是否允许数据倾斜,
默认是false,
当设置为true时,执行计划会生成两个map/reduce作业,第一个MR中会将map的结果随机分布到reduce中,达到负载均衡的目的来解决数据倾斜,
hive.groupby.mapaggr.checkinterval:
map端做聚合时,group by 的key所允许的数据行数,超过该值则进行分拆,
默认是100000;
hive.mapred.local.mem:
本地模式时,map/reduce的内存使用量,
默认是0,就是无限制;
hive.mapjoin.followby.map.aggr.hash.percentmemory:
map端聚合时hash表的内存占比,该设置约束group by在map join后进行,
否则使用hive.map.aggr.hash.percentmemory来确认内存占比,
默认值0.3;
hive.map.aggr.hash.force.flush.memeory.threshold:
map端聚合时hash表的最大可用内存,如果超过该值则进行flush数据,
默认是0.9;
hive.map.aggr.hash.min.reduction:
如果hash表的容量与输入行数之比超过这个数,那么map端的hash聚合将被关闭,
默认是0.5,设置为1可以保证hash聚合永不被关闭;
hive.optimize.groupby:
在做分区和表查询时是否做分桶group by,
默认开启true;
hive.multigroupby.singlemr:
将多个group by产出为一个单一map/reduce任务计划,当然约束前提是group by有相同的key,
默认是false;
hive.optimize.cp:
列裁剪,
默认开启true,在做查询时只读取用到的列,这个是个有用的优化;
hive.optimize.index.filter:
自动使用索引,
默认不开启false;
hive.optimize.index.groupby:
是否使用聚集索引优化group-by查询,
默认关闭false;
hive.optimize.ppd:
是否支持谓词下推,
默认开启;
所谓谓词下推,将外层查询块的 WHERE 子句中的谓词移入所包含的较低层查询块(例如视图),从而能够提早进行数据过滤以及有可能更好地利用索引。
hive.optimize.ppd.storage:
谓词下推开启时,谓词是否下推到存储handler,
默认开启,在谓词下推关闭时不起作用;
hive.ppd.recognizetransivity:在
等值join条件下是否产地重复的谓词过滤器,
默认开启;
hive.join.cache.size:
在做表join时缓存在内存中的行数,
默认25000;
hive.mapjoin.bucket.cache.size:
mapjoin时内存cache的每个key要存储多少个value,
默认100;
hive.optimize.skewjoin:
是否开启数据倾斜的join优化,
默认不开启false;
hive.skewjoin.key:
判断数据倾斜的阈值,如果在join中发现同样的key超过该值则认为是该key是倾斜的join key,
默认是100000;
hive.skewjoin.mapjoin.map.tasks:
在数据倾斜join时map join的map数控制,
默认是10000;
hive.skewjoin.mapjoin.min.split:
数据倾斜join时map join的map任务的最小split大小,
默认是33554432,该参数要结合上面的参数共同使用来进行细粒度的控制;
hive.mapred.mode:
hive操作执行时的模式,
默认是nonstrict非严格模式,
如果是strict模式,很多有风险的查询会被禁止运行,比如笛卡尔积的join和动态分区;
hive.exec.script.maxerrsize:
一个map/reduce任务允许打印到标准错误里的最大字节数,为了防止脚本把分区日志填满,
默认是100000;
hive.exec.script.allow.partial.consumption:
hive是否允许脚本不从标准输入中读取任何内容就成功退出,
默认关闭false;
hive.script.operator.id.env.var:
在用户使用transform函数做自定义map/reduce时,存储唯一的脚本标识的环境变量的名字,
默认 HIVE_SCRIPT_OPERATOR_ID;
hive.exec.compress.output:
控制hive的查询结果输出是否进行压缩,压缩方式在hadoop的mapred.output.compress中配置,
默认不压缩false;
hive.exec.compress.intermediate:
控制hive的查询中间结果是否进行压缩,同上条配置,默认不压缩false;
hive.exec.parallel:
hive的执行job是否并行执行,
默认不开启false,
在很多操作如join时,子查询之间并无关联可独立运行,这种情况下开启并行运算可以大大加速;
hive.exec.parallel.thread.number:
并行运算开启时,允许多少作业同时计算,
默认是8;
hive.exec.rowoffset:
是否提供行偏移量的虚拟列,
默认是false不提供,
Hive有两个虚拟列:
一个是INPUT__FILE__NAME,表示输入文件的路径,
另外一个是BLOCK__OFFSET__INSIDE__FILE,表示记录在文件中的块偏移量,这对排查出现不符合预期或者null结果的查询是很有帮助的;
hive.task.progress:
控制hive是否在执行过程中周期性的更新任务进度计数器,开启这个配置可以帮助job tracker更好的监控任务的执行情况,
但是会带来一定的性能损耗,当动态分区标志hive.exec.dynamic.partition开启时,
本配置自动开启;
hive.exec.pre.hooks:
执行前置条件,一个用逗号分隔开的实现了org.apache.hadoop.hive.ql.hooks.ExecuteWithHookContext接口的
java class列表,配置了该配置后,每个hive任务执行前都要执行这个执行前钩子,
默认是空;
hive.exec.post.hooks:
同上,执行后钩子,
默认是空;
hive.exec.failure.hooks:
同上,异常时钩子,在程序发生异常时执行,
默认是空;
hive.mergejob.maponly:
试图生成一个只有map的任务去做merge,前提是支持CombineHiveInputFormat,
默认开启true;
hive.auto.convert.join:
根据输入文件的大小决定是否将普通join转换为mapjoin的一种优化,
默认不开启false;
hive.mapjoin.smalltable.filesize:
输入表文件的mapjoin阈值,如果输入文件的大小小于该值,则试图将普通join转化为mapjoin,
默认25MB;
hive.mapjoin.localtask.max.memory.usage:
mapjoin本地任务执行时hash表容纳key/value的最大量,超过这个值的话本地任务会自动退出,
默认是0.9;
hive.mapjoin.followby.gby.localtask.max.memory.usage:
类似上面,只不过是如果mapjoin后有一个group by的话,该配置控制类似这样的query的本地内存容量上限,
默认是0.55;
hive.mapjoin.check.memory.rows:
在运算了多少行后执行内存使用量检查,
默认100000;
hive.heartbeat.interval:
发送心跳的时间间隔,在mapjoin和filter操作中使用,
默认1000;
hive.script.auto.progress:
hive的transform/map/reduce脚本执行时是否自动的将进度信息发送给TaskTracker来避免任务没有响应被误杀,
本来是当脚本输出到标准错误时,发送进度信息,但是开启该项后,输出到标准错误也不会导致信息发送,
因此有可能会造成脚本有死循环产生,但是TaskTracker却没有检查到从而一直循环下去;
hive.script.serde:
用户脚本转换输入到输出时的SerDe约束,默认是org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe;
hive.script.recordreader:
从脚本读数据的时候的默认reader,默认是org.apache.hadoop.hive.ql.exec.TextRecordReader;
hive.script.recordwriter:
写数据到脚本时的默认writer,默认org.apache.hadoop.hive.ql.exec.TextRecordWriter;
hive.input.format:
输入格式,
默认是org.apache.hadoop.hive.ql.io.CombineHiveInputFormat,
如果出现问题,可以改用org.apache.hadoop.hive.ql.io.HiveInputFormat;
hive.udtf.auto.progress:
UDTF执行时hive是否发送进度信息到TaskTracker,
默认是false;
hive.mapred.reduce.tasks.speculative.execution:
reduce任务推测执行是否开启,
默认是true;
hive.exec.counters.pull.interval:
运行中job轮询JobTracker的时间间隔,设置小会影响JobTracker的load,设置大可能看不出运行任务的信息,要去平衡,
默认是1000;
hive.enforce.bucketing:
数据分桶是否被强制执行,
默认false,如果开启,则写入table数据时会启动分桶,
hive.enforce.sorting:
开启强制排序时,插数据到表中会进行强制排序,默认false;
hive.optimize.reducededuplication:
如果数据已经根据相同的key做好聚合,那么去除掉多余的map/reduce作业,此配置是文档的推荐配置,建议打开,
默认是true;
hive.exec.dynamic.partition:
在DML/DDL中是否支持动态分区,
默认false;
hive.exec.dynamic.partition.mode:
在strict模式下,动态分区的使用必须在一个静态分区确认的情况下,其他分区可以是动态;
默认strict,
hive.exec.max.dynamic.partitions:
动态分区的上限,
默认1000;
hive.exec.max.dynamic.partitions.pernode:
每个mapper/reducer节点可以创建的最大动态分区数,
默认100;
hive.exec.max.created.files:
一个mapreduce作业能创建的HDFS文件最大数,
默认是100000;
hive.exec.default.partition.name:
当动态分区启用时,如果数据列里包含null或者空字符串的话,数据会被插入到这个分区,
默认名字是__HIVE_DEFAULT_PARTITION__;
hive.fetch.output.serde:
FetchTask序列化fetch输出时需要的SerDe,
默认是org.apache.hadoop.hive.serde2.DelimitedJSONSerDe;
hive.exec.mode.local.auto:
是否由hive决定自动在local模式下运行,
默认是false,
hive.exec.drop.ignorenoneexistent:
在drop表或者视图时如果发现表或视图不存在,是否报错,
默认是true;
hive.exec.show.job.failure.debug.info:
在作业失败时是否提供一个任务debug信息,
默认true;
hive.auto.progress.timeout:
运行自动progressor的时间间隔,
默认是0, 等价于forever;
hive.table.parameters.default:
新建表的属性字段默认值,
默认是empty 空;
hive.variable.substitute:
是否支持变量替换,如果开启的话,支持语法如${var} ${system:var}和${env.var},
默认是true;
hive.error.on.empty.partition:
在遇到结果为空的动态分区时是否报错,
默认是false;
hive.exim.uri.scheme.whitelist:
在导入导出数据时提供的一个白名单列表,列表项之间由逗号分隔,
默认hdfs, pfile;
hive.limit.row.max.size:
字面意思理解就是在使用limit做数据的子集查询时保证的最小行数据量,
默认是100000;
hive.limit.optimize.limit.file:
使用简单limit查询数据子集时,可抽样的最大文件数,
默认是10;
hive.limit.optimize.enable:
使用简单limit抽样数据时是否开启优化选项,
默认是false,
关于limit的优化问题,在hive programming书中解释的是这个feature有drawback,对于抽样的不确定性给出了风险提示;
hive.limit.optimize.fetch.max:
使用简单limit抽样数据允许的最大行数,
默认50000,查询query受限,insert不受影响;
hive.rework.mapredwork:
是否重做mapreduce,
默认是false;
hive.sample.seednumber:
用来区分抽样的数字,
默认是0;
hive.io.exception.handlers:
io异常处理handler类列表,
默认是空,
当record reader发生io异常时,由这些handler来处理异常;
hive.autogen.columnalias.prefix.label:
当在执行中自动产生列别名的前缀,当类似count这样的聚合函数起作用时,如果不明确指出count(a) as xxx的话,
那么默认会从列的位置的数字开始算起添加,比如第一个count的结果会冠以列名_c0,接下来依次类推,
默认值是_c,数据开发过程中应该很多人都看到过这个别名;
hive.autogen.columnalias.prefix.includefuncname:
在自动生成列别名时是否带函数的名字,
默认是false;
hive.exec.perf.logger:
负责记录客户端性能指标的日志类名,必须是org.apache.hadoop.hive.ql.log.PerfLogger的子类,
默认是org.apache.hadoop.hive.ql.log.PerfLogger;
hive.start.cleanup.scratchdir:
当启动hive服务时是否清空hive的scratch目录,
默认是false;
hive.output.file.extension:
输出文件扩展名,
默认是空;
hive.insert.into.multilevel.dirs:
是否插入到多级目录,
默认是false;
hive.files.umask.value:
hive创建文件夹时的dfs.umask值,
默认是0002;
hive.metastore.local:
控制hive是否连接一个远程metastore服务器还是开启一个本地客户端jvm,默认是true,
Hive0.10已经取消了该配置项;
javax.jdo.option.ConnectionURL:
JDBC连接字符串,
默认 jdbc:derby:;databaseName=metastore_db;create=true;
javax.jdo.option.ConnectionDriverName:
JDBC的driver,
默认org.apache.derby.jdbc.EmbeddedDriver;
javax.jdo.PersisteneManagerFactoryClass:
实现JDO PersistenceManagerFactory的类名,
默认org.datanucleus.jdo.JDOPersistenceManagerFactory;
javax.jdo.option.DetachAllOnCommit:
事务提交后detach所有提交的对象,
默认是true;
javax.jdo.option.NonTransactionalRead:
是否允许非事务的读,
默认是true;
javax.jdo.option.ConnectionUserName:
username,
默认APP;
javax.jdo.option.ConnectionPassword:
password,
默认mine;
javax.jdo.option.Multithreaded:
是否支持并发访问metastore,
默认是true;
datanucleus.connectionPoolingType:
使用连接池来访问JDBC metastore,
默认是DBCP;
datanucleus.validateTables:
检查是否存在表的schema,
默认是false;
datanucleus.validateColumns:
检查是否存在列的schema,
默认false;
datanucleus.validateConstraints:
检查是否存在constraint的schema,
默认false;
datanucleus.storeManagerType:
元数据存储类型,
默认rdbms;
datanucleus.autoCreateSchema:
在不存在时是否自动创建必要的schema,
默认是true;
datanucleus.aotuStartMechanismMode:
如果元数据表不正确,抛出异常,
默认是checked;
datanucleus.transactionIsolation:
默认的事务隔离级别,
默认是read-committed;
datanucleus.cache.level2:
使用二级缓存,
默认是false;
datanucleus.cache.level2.type:
二级缓存的类型,有两种,SOFT:软引用,WEAK:弱引用,
默认是SOFT;
datanucleus.identifierFactory:
id工厂生产表和列名的名字,
默认是datanucleus;
datanucleus.plugin.pluginRegistryBundleCheck:
当plugin被发现并且重复时的行为,
默认是LOG;
hive.metastroe.warehouse.dir:
数据仓库的位置,
默认是/user/hive/warehouse;
hive.metastore.execute.setugi:
非安全模式,设置为true会令metastore以客户端的用户和组权限执行DFS操作,
默认是false,这个属性需要服务端和客户端同时设置;
hive.metastore.event.listeners:
metastore的事件监听器列表,逗号隔开,
默认是空;
hive.metastore.partition.inherit.table.properties:
当新建分区时自动继承的key列表,
默认是空;
hive.metastore.end.function.listeners:
metastore函数执行结束时的监听器列表,
默认是空;
hive.metastore.event.expiry.duration:
事件表中事件的过期时间,
默认是0;
hive.metastore.event.clean.freq:
metastore中清理过期事件的定时器的运行周期,
默认是0;
hive.metastore.connect.retries:
创建metastore连接时的重试次数,
默认是5;
hive.metastore.client.connect.retry.delay:
客户端在连续的重试连接等待的时间,
默认1;
hive.metastore.client.socket.timeout:
客户端socket超时时间,
默认20秒;
hive.metastore.rawstore.impl:
原始metastore的存储实现类,
默认是org.apache.hadoop.hive.metastore.ObjectStore;
hive.metastore.batch.retrieve.max:
在一个batch获取中,能从metastore里取出的最大记录数,
默认是300;
hive.metastore.ds.connection.url.hook:查找JDO连接url时hook的名字,默认是javax.jdo.option.ConnectionURL;
hive.metastore.ds.retry.attempts:
当出现连接错误时重试连接的次数,
默认是1次;
hive.metastore.ds.retry.interval:
metastore重试连接的间隔时间,
默认1000毫秒;
hive.metastore.server.min.threads:
在thrift服务池中最小的工作线程数,
默认是200;
hive.metastore.server.max.threads:
最大线程数,
默认是100000;
hive.metastore.server.tcp.keepalive:
metastore的server是否开启长连接,长连可以预防半连接的积累,
默认是true;
hive.metastore.sasl.enabled:
metastore thrift接口的安全策略,开启则用SASL加密接口,客户端必须要用Kerberos机制鉴权,
默认是不开启false;
hive.metastore.kerberos.keytab.file:
在开启sasl后kerberos的keytab文件存放路径,
默认是空;
hive.metastore.kerberos.principal:
kerberos的principal,_HOST部分会动态替换,
默认是hive-metastore/_HOST@EXAMPLE.COM;
hive.metastore.cache.pinobjtypes:
在cache中支持的metastore的对象类型,由逗号分隔,
默认是Table,StorageDescriptor,SerDeInfo,Partition,Database,Type,FieldSchema,Order;
hive.metastore.authorization.storage.checks:
在做类似drop partition操作时,metastore是否要认证权限,
默认是false;
hive.metastore.schema.verification:
强制metastore的schema一致性,开启的话会校验在metastore中存储的信息的版本和hive的jar包中的版本一致性,
并且关闭自动schema迁移,用户必须手动的升级hive并且迁移schema,关闭的话只会在版本不一致时给出警告,
默认是false不开启;
hive.index.compact.file.ignore.hdfs:
在索引文件中存储的hdfs地址将在运行时被忽略,如果开启的话;如果数据被迁移,那么索引文件依然可用,
默认是false;
hive.optimize.index.filter.compact.minsize:
压缩索引自动应用的最小输入大小,
默认是5368709120;
hive.optimize.index.filter.compact.maxsize:
同上,相反含义,如果是负值代表正无穷,
默认是-1;
hive.index.compact.query.max.size:
一个使用压缩索引做的查询能取到的最大数据量,
默认是10737418240 个byte;负值代表无穷大;
hive.index.compact.query.max.entries:
使用压缩索引查询时能读到的最大索引项数,
默认是10000000;负值代表无穷大;
hive.index.compact.binary.search:
在索引表中是否开启二分搜索进行索引项查询,
默认是true;
hive.exec.concatenate.check.index:
如果设置为true,那么在做ALTER TABLE tbl_name CONCATENATE on a table/partition(有索引) 操作时,抛出错误;
可以帮助用户避免index的删除和重建;
hive.stats.dbclass:
存储hive临时统计信息的数据库,
默认是jdbc:derby;
hive.stats.autogather:
在insert overwrite命令时自动收集统计信息,
默认开启true;
hive.stats.jdbcdriver:
数据库临时存储hive统计信息的jdbc驱动;
hive.stats.dbconnectionstring:
临时统计信息数据库连接串,
默认jdbc:derby:databaseName=TempStatsStore;create=true;
hive.stats.defaults.publisher:
如果dbclass不是jdbc或者hbase,那么使用这个作为默认发布,必须实现StatsPublisher接口,
默认是空;
hive.stats.defaults.aggregator:
如果dbclass不是jdbc或者hbase,那么使用该类做聚集,要求实现StatsAggregator接口,
默认是空;
hive.stats.jdbc.timeout:
jdbc连接超时配置,
默认30秒;
hive.stats.retries.max:
当统计发布合聚集在更新数据库时出现异常时最大的重试次数,
默认是0,不重试;
hive.stats.retries.wait:
重试次数之间的等待窗口,
默认是3000毫秒;
hive.client.stats.publishers:
做count的job的统计发布类列表,由逗号隔开,
默认是空;必须实现org.apache.hadoop.hive.ql.stats.ClientStatsPublisher接口;
hive.client.stats.counters:
没什么用~~~
hive.security.authorization.enabled:
hive客户端是否认证,
默认是false;
hive.security.authorization.manager:
hive客户端认证的管理类,
默认是org.apache.hadoop.hive.ql.security.authorization.DefaultHiveAuthorizationProvider;
用户定义的要实现org.apache.hadoop.hive.ql.security.authorization.HiveAuthorizationProvider;
hive.security.authenticator.manager:
hive客户端授权的管理类,
默认是org.apache.hadoop.hive.ql.security.HadoopDefaultAuthenticator;
用户定义的需要实现org.apache.hadoop.hive.ql.security.HiveAuthenticatorProvider;
hive.security.authorization.createtable.user.grants:
当表创建时自动授权给用户,
默认是空;
hive.security.authorization.createtable.group.grants:
同上,自动授权给组,
默认是空;
hive.security.authorization.createtable.role.grants:
同上,自动授权给角色,
默认是空;
hive.security.authorization.createtable.owner.grants:
同上,自动授权给owner,
默认是空;
hive.security.metastore.authorization.manager:
metastore的认证管理类,
默认是org.apache.hadoop.hive.ql.security.authorization.DefaultHiveMetastoreAuthorizationProvider;
用户定义的必须实现org.apache.hadoop.hive.ql.security.authorization.HiveMetastoreAuthorizationProvider接口;
接口参数要包含org.apache.hadoop.hive.ql.security.authorization.StorageBasedAuthorizationProvider接口;
使用HDFS的权限控制认证而不是hive的基于grant的方式;
hive.security.metastore.authenticator.manager:
metastore端的授权管理类,
默认是org.apache.hadoop.hive.ql.security.HadoopDefaultMetastoreAuthenticator,
自定义的必须实现org.apache.hadoop.hive.ql.security.HiveAuthenticatorProvider接口;
hive.metastore.pre.event.listeners:
在metastore做数据库任何操作前执行的事件监听类列表;
fs.har.impl:
访问Hadoop Archives的实现类,低于hadoop 0.20版本的都不兼容,
默认是org.apache.hadoop.hive.shims.HiveHarFileSystem;
hive.archive.enabled:
是否允许归档操作,
默认是false;
hive.archive.har.parentdir.settable:
在创建HAR文件时必须要有父目录,需要手动设置,在新的hadoop版本会支持,
默认是false;
hive.support.concurrency:
hive是否支持并发,
默认是false,支持读写锁的话,必须要起zookeeper;
hive.lock.mapred.only.operation:
控制是否在查询时加锁,
默认是false;
hive.lock.numretries:
获取锁时尝试的重试次数,
默认是100;
hive.lock.sleep.between.retries:
在重试间隔的睡眠时间,
默认60秒;
hive.zookeeper.quorum:
zk地址列表,
默认是空;
hive.zookeeper.client.port:
zk服务器的连接端口,
默认是2181;
hive.zookeeper.session.timeout:
zk客户端的session超时时间,
默认是600000;
hive.zookeeper.namespace:
在所有zk节点创建后的父节点,
默认是hive_zookeeper_namespace;
hive.zookeeper.clean.extra.nodes:
在session结束时清除所有额外node;
hive.cluster.delegation.token.store.class:
代理token的存储实现类,
默认是org.apache.hadoop.hive.thrift.MemoryTokenStore,
可以设置为org.apache.hadoop.hive.thrift.ZooKeeperTokenStore来做负载均衡集群;
hive.cluster.delegation.token.store.zookeeper.connectString:
zk的token存储连接串,
默认是localhost:2181;
hive.cluster.delegation.token.store.zookeeper.znode:
token存储的节点跟路径,
默认是/hive/cluster/delegation;
hive.cluster.delegation.token.store.zookeeper.acl:
token存储的ACL,
默认是sasl:hive/host1@example.com:cdrwa,sasl:hive/host2@example.com:cdrwa;
hive.use.input.primary.region:
从一张input表创建表时,创建这个表到input表的主region,
默认是true;
hive.default.region.name:
默认region的名字,
默认是default;
hive.region.properties:
region的默认的文件系统和jobtracker,
默认是空;
hive.cli.print.header:
查询输出时是否打印名字和列,
默认是false;
hive.cli.print.current.db:
hive的提示里是否包含当前的db,
默认是false;
hive.hbase.wal.enabled:
写入hbase时是否强制写wal日志,
默认是true;
hive.hwi.war.file:
hive在web接口是的war文件的路径,
默认是lib/hive-hwi-xxxx(version).war;
hive.hwi.listen.host:
hwi监听的host地址,
默认是0.0.0.0;
hive.hwi.listen.port:
hwi监听的端口,
默认是9999;
hive.test.mode:
hive是否运行在测试模式,默认是false;
hive.test.mode.prefix:
在测试模式运行时,表的前缀字符串,
默认是test_;
hive.test.mode.samplefreq:
如果hive在测试模式运行,并且表未分桶,抽样频率是多少,
默认是32;
hive.test.mode.nosamplelist:
在测试模式运行时不进行抽样的表列表,
默认是空;
Hive 配置项详解的更多相关文章
- Storm配置项详解【转】
Storm配置项详解 ——阿里数据平台技术博客:storm配置项详解 什么是Storm? Storm是twitter开源的一套实时数据处理框架,基于该框架你可以通过简单的编程来实现对数据流的实时处理变 ...
- SpringCloud Eureka参数配置项详解
SpringCloud Eureka参数配置项详解(转) Eureka涉及到的参数配置项数量众多,它的很多功能都是通过参数配置来实现的,了解这些参数的含义有助于我们更好的应用Eureka的各种功能,下 ...
- hive beeline详解
Hive客户端工具后续将使用Beeline 替代HiveCLI ,并且后续版本也会废弃掉HiveCLI 客户端工具,Beeline是 Hive 0.11版本引入的新命令行客户端工具,它是基于SQLLi ...
- Python - poetry(3)配置项详解
config 命令 poetry 通过 config 命令进行配置 也可以直接在 config.toml 文件中进行配置,该文件将在首次运行该命令时自动创建 文件目录 macOS:~/Library/ ...
- 【转】web.xml配置项详解
史上最全web.xml配置文件元素详解 一.web.xml配置文件常用元素及其意义预览 1 <web-app> 2 3 <!--定义了WEB应用的名字--> 4 <d ...
- SpringBoot application.properties 配置项详解
参考: http://blog.csdn.net/lpfsuperman/article/details/78287265### # spring boot application.propertie ...
- HIVE 配置文件详解
hive的配置: hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置: hive.exec.scri ...
- Hive安装配置指北(含Hive Metastore详解)
个人主页: http://www.linbingdong.com 本文介绍Hive安装配置的整个过程,包括MySQL.Hive及Metastore的安装配置,并分析了Metastore三种配置方式的区 ...
- 使用java连接hive,并执行hive语句详解
安装hadoop 和 hive我就不多说了,网上太多文章 自己看去 首先,在机器上打开hiveservice hive --service hiveserver -p 50000 & 打开50 ...
随机推荐
- 快速排序(QuickSort)Java版
快速排序 快速排序是对冒泡排序的一种改进. 它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排 ...
- 痞子衡嵌入式:同一厂商不同系列Flash型号下Dummy Cycle设置方法可能有差异 (以IS25LP064为例)
大家好,我是痞子衡,是正经搞技术的痞子.今天痞子衡给大家介绍的是同一厂商不同系列Flash型号下Dummy Cycle设置方法的差异. 上一篇文章 <在i.MXRT启动头FDCB里调整Flash ...
- django-自定义用户登录(个人笔记)
django自定义用户登录(个人笔记) 函数说明 1. render()函数:对用户请求做出响应 2. path()函数:定义路由 3. create()函数:增加数据表记录 配置settings.p ...
- Kafka分片存储、消息分发和持久化机制
Kafka 分片存储机制 Broker:消息中间件处理结点,一个 Kafka 节点就是一个 broker,多个 broker 可以组成一个 Kafka集群. Topic:一类消息,例如 page vi ...
- Flutter 状态管理- 使用 MobX
文 / Paul Halliday, developer.school 创始人 众所周知,状态管理是每个软件项目都需要持续迭代更新的方向.它并不是一个「一次性」的工作, 而需要不断确保你遵循的最佳实践 ...
- VUE+Element 前端应用开发框架功能介绍
前面介绍了很多ABP系列的文章<ABP框架使用>,一步一步的把我们日常开发中涉及到的Web API服务构建.登录日志和操作审计日志.字典管理模块.省份城市的信息维护.权限管理模块中的组织机 ...
- Mysql下可能存在注入的点。
总结下mysql下可能存在注入的点,适用于mssql和oracle,先写语句,以后再写语句可能出现在哪些场景下: 针对查询: select * from x where id=* select * f ...
- OAuth 2.0 了解了,OAuth 2.1 呢?
OAuth 2.0 OAuth 2.0 是工业级标准授权协议. OAuth 2.0 聚焦于客户端开发者便利性,为网页应用程序.桌面客户端.手机.客厅设备提供特定的授权流程. RFC6749 OAuth ...
- nginx 完美解决tp3.2.3 404问题
最近我把Apache给换成nginx,当我把tp项目搬过去运行的时候发现404 错误 ,原来是因为nginx不支持 pathinfo 模式,需要自己配置 下面我配置 在server配置里面 locat ...
- <JVM下篇:性能监控与调优篇>05-分析GC日志
笔记来源:尚硅谷JVM全套教程,百万播放,全网巅峰(宋红康详解java虚拟机) 同步更新:https://gitee.com/vectorx/NOTE_JVM https://codechina.cs ...