Hive 常用优化参数】的更多相关文章

常用调优测试语句 :    ①显示当前hive环境的参数值: set 参数名; 如:   hive> set mapred.map.tasks;mapred.map.tasks;   ②设置hive当前环境的参数值,但仅对本次连接有效 set 参数名 = 值; 如: hive> set mapred.map.tasks;mapred.map.tasks=2;   ④查看当前hive环境的所有参数值: set -v; ⑤重置当前hive环境的所有参数值: reset;     hive job优…
问题导读:1.如何理解列裁剪和分区裁剪?2.sort by代替order by优势在哪里?3.如何调整group by配置?4.如何优化SQL处理join数据倾斜?Hive作为大数据领域常用的数据仓库组件,在平时设计和查询时要特别注意效率.影响Hive效率的几乎从不是数据量过大,而是数据倾斜.数据冗余.job或I/O过多.MapReduce分配不合理等等.对Hive的调优既包含对HiveQL语句本身的优化,也包含Hive配置项和MR方面的调整.目录 列裁剪和分区裁剪 谓词下推 sort by代替…
修改全站搜索 修改my.ini(my.cnf) ,在 [mysqld] 后面加入一行“ft_min_word_len=1”,然后 重启Mysql,再登录网站后台(模块管理->全站搜索)重建全文索引. 记录慢查询sql语句,修改my.ini(my.cnf),添加如下代码: #log-slow-queries long_query_time = 1 #是指 执行超过多久的 sql 会被 log 下来 log-slow-queries = E:/wamp /logs/slow.log #设置把日志写在…
Apache Hive作为处理大数据量的大数据领域数据建设核心工具,数据量往往不是影响Hive执行效率的核心因素,数据倾斜.job数分配的不合理.磁盘或网络I/O过高.MapReduce配置的不合理等等才是影响Hive性能的关键. Hive在执行任务时,通常会将Hive SQL转化为MapReduce job进行处理.因此对Hive的调优,除了对Hive语句本身的优化,也要考虑Hive配置项以及MapReduce相关的优化.从更底层思考如何优化性能,而不是仅仅局限于代码/SQL的层面.列裁剪和分…
0. 说明 记录 Hive 常用参数的配置 1. 设置本地模式 让 Hive 自动使用 Hadoop 的本地模式运行作业,提升处理性能 适合小文件,一般用于测试 set hive.exec.mode.local.auto=true; 输入文件大小低于此值会进入本地模式 SET hive.exec.mode.local.auto.inputbytes.max=500000000; 输入文件个数低于此值会进入本地模式 SET hive.exec.mode.local.auto.input.files…
Hive设置配置参数的方法 Hive提供三种可以改变环境变量的方法,分别是: (1).修改${HIVE_HOME}/conf/hive-site.xml配置文件: (2).命令行参数: (3).在已经进入cli时进行参数声明. 方法一:hive-site.xml配置参数 在Hive中,所有的默认配置都在 "{HIVE_HOME}/conf/hive-default.xml "文件中,如果需要对默认的配置进行修改,可以创建一个 "hive-site.xml" 文件,放…
1.概述 继续<那些年使用Hive踩过的坑>一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题.下面开始本篇文章的优化介绍. 2.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map reduce作业初始化的时间是比较长的. sum,count,max,mi…
https://blog.csdn.net/mrlevo520/article/details/76339075 1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map reduce作业初始化的时间是比较长的. sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合…
1.介绍 首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题. jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,耗时很长.原因是map reduce作业初始化的时间是比较长的. sum,count,max,min等UDAF,不怕数据倾斜问题,hadoop在map端的汇总合并优化,使数据倾斜不成问题. count(distinct ),在数据量大的情况下,效率较低,如果是多count(…
Hive的优化主要分为:配置优化.SQL语句优化.任务优化等方案.其中在开发过程中主要涉及到的可能是SQL优化这块. 优化的核心思想是: 减少数据量(例如分区.列剪裁) 避免数据倾斜(例如加参数.Key打散) 避免全表扫描(例如on添加加上分区等) 减少job数(例如相同的on条件的join放在一起作为一个任务) HQL语句优化 1. 使用分区剪裁.列剪裁 在分区剪裁中,当使用外关联时,如果将副表的过滤条件写在Where后面,那么就会先全表关联,之后再过滤. select a.* from a…
一.本课程是怎么样的一门课程(全面介绍)    1.1.课程的背景       作为企业Hadoop应用的核心产品,Hive承载着FaceBook.淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电商.       Hive在企业云计算平台发挥的作用和影响愈来愈大,如何优化提速已经显得至关重要.       Hive作业的规模决定着优化层级,一个Hive作业的优化和一万的Hive作业的优化截然不同.       拥有1万多个Hive作业的大电商如何进行Hiv…
一.前述 本节主要描述Hive的优化使用,Hive的优化着重强调一个 把Hive SQL 当做Mapreduce程序去优化 二.主要优化点 1.Hive运行方式:本地模式集群模式 本地模式开启本地模式:set hive.exec.mode.local.auto=true;注意:hive.exec.mode.local.auto.inputbytes.max默认值为128M表示加载文件的最大值,若大于该配置仍会以集群方式来运行! 对于小表可以直接从从hdfs直接拿到本地计算 2.并行计算通过设置以…
MongoDB在Linux下常用优化设置 以下是一些MongoDB推荐的常用优化设置.在生产环境下选取合适的参数值,例如预读值和默认文件描述符数目等,会对系统性能有很大的影响. 1.关闭数据库文件的 atime 禁止系统对文件的访问时间更新会有效提高文件读取的性能.这个可以通过在 /etc/fstab 文件中增加 noatime 参数来实现.例如: /dev/xvdb /data ext4 noatime 0 0 修改完文件后重新 mount就可以: # mount -o remount /da…
首先hive本质就是mapreduce,那么优化就从mapreduce开始入手. 然而mapreduce的执行快慢又和map和reduce的个数有关,所以我们先从这里下手,调整并发度. 关于map的优化: 1.调整block 作业会通过input的目录产生一个或者多个map任务.set dfs.block.size 因为没份数据都是block,而block的大小直接影响了split切分的分数,如果切分的更细一点,那么split个数会增加,那直接会影响map的增加,所以blocksize是直接影响…
1.hive 参数.变量 1.1hive的命名空间: hive当中的参数.变量,都是以命名空间开头  …
Tomcat 5常用优化和配置 1.JDK内存优化:Tomcat默认可以使用的内存为128MB,Windows下,在文件{tomcat_home}/bin/catalina.bat,Unix下,在文件{tomcat_home}/bin/catalina.sh的前面,增加如下设置:JAVA_OPTS='-Xms[初始化内存大小] -Xmx[可以使用的最大内存] 一般说来,你应该使用物理内存的 80% 作为堆大小.2.连接器优化:在tomcat配置文件server.xml中的配置中,和连接数相关的参…
4.1 ListView常用优化技巧 4.1.1 使用ViewHolder模式提高效率 4.1.2 设置项目间分割线 4.1.3 隐藏ListView的滚动条 4.1.4 取消ListView的Item点击效果 4.1.5 设置ListView需要显示在第几项 4.1.6 动态修改ListView 4.1.7 遍历ListView中的所有Item 4.1.8 处理空ListView 4.1.9 ListView滑动监听 4.2 ListView常用拓展 4.2.1 具有弹性的ListView 4…
Hive优化目标 在有限的资源下,执行效率更高 常见问题: 数据倾斜 map数设置 reduce数设置 其他 Hive执行 HQL --> Job --> Map/Reduce 执行计划 explain [extended] hql 样例 select col,count(1) from test2 group by col; explain select col,count(1) from test2 group by col; Hive表优化 分区 set hive.exec.dynami…
第三天笔记 第三天笔记 SQL练习Hive 常用函数关系运算数值计算条件函数日期函数重点!!!字符串函数Hive 中的wordCount1.1 Hive窗口函数1.1.1 聚合开窗函数聚合开窗函数实战:实战1:Hive用户购买明细数据分析实战1需求:1.1.2 排序开窗函数实战2:Hive分析学生成绩信息Hive 行转列Hive 列转行Hive自定义函数UserDefineFunctionUDF:一进一出函数加载方式UDTF:一进多出方法一:使用 explode+split方法二:自定UDTFU…
            本文是.Net中的并行编程第六篇,今天就介绍一些我在实际项目中的一些常用优化策略.      一.避免线程之间共享数据 避免线程之间共享数据主要是因为锁的问题,无论什么粒度的锁,最好的线程之间同步方式就是不加锁,这个地方主要措施就是找出数据之间的哪个地方需要共享数据和不需要共享数据的地方,再设计上避免多线程之间共享数据. 在以前做过的某项目,开始时设计的方案: 开始设计时所有的数据都放入到了公共队列,然后队列通知多个线程去处理数据,队列采用互斥锁保证线程同步,造成的结果就…
本文转载自:http://www.cnblogs.com/yaozhongxiao/archive/2012/03/16/2400473.html 如需转载,请注明原始出处.谢谢. ---------------------------------------------------------------------------------------- gcc 使用中常用的参数及命令    1.  执行过程      虽然我们称Gcc是C语言的编译器,但使用gcc由C语言源代码文件生成可执行…
Struts2登录 1. 需要注意:Struts2需要运行在JRE1.5及以上版本 2. 在web.xml配置文件中,配置StrutsPrepareAndExecuteFilter或FilterDispatcher <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.struts2.dispatcher.ng.filter.StrutsPrepareAndExecuteFi…
1.首先下载deb包,比如:将其放在 /home/tools/ 根目录下: 2.进入到tools根目录下的终端,输入下面命令创建文件夹extract,并在extract文件夹下创建DEBIAN文件夹 mkdir -p extract/DEBIAN 3.将deb包解压到extract文件夹下 dpkg -X ./xxx.deb extract 4.解压deb包中的control信息(包的依赖在这里面的control文件中) dpkg -e ./xxx.deb extract/DEBIAN 5.创建…
hive -f 在执行sql脚本文件的时候是可以传递参数的,但是要注意hive版本: 注意:hive在0.9版本之前是不支持-f传递参数的,只有1.0之后才支持次功能. 使用如下: 1.创建sql脚本文件,内容如下 select * from test where id = '${hiveconf:id}' 2.hive -f 传递参数 hive -hiveconf id=test001 -f test.sql 3.测试结果可以正常显示…
npm是什么 NPM的全称是Node Package Manager,是随同NodeJS一起安装的包管理和分发工具,它很方便让JavaScript开发者下载.安装.上传以及管理已经安装的包. 一.npm常用命令参数如下. (1) npm ls -g|less #查看目前已经安装的模块 (2) npm config edit registry=https://registry.npm.taobao.org/ ;更改npm的源为淘宝 (3)…
puppet一些常用的参数 通过@,realize来定义使用虚拟资源 虚拟资源主要来解决在安装包的时候,互相冲突的问题 具体参考这里 简单说下,在定义资源的时候加上@ 例如: @package { "apache2-mpm-worker": ensure => installed } 它会告诉 Puppet 这个资源存在,但不希望用它做任何事情.不回去应用, Puppet 将会读取并记住虚拟资源定义,但实际上不会创建这个资源,直到你明确指出要创建此资源. 如何使用呢,这时real…
Linux常用内核参数 TCP状态描述 CLOSED:无连接是活动的或正在进行的 LISTEN:服务器在等待进入呼叫 SYN-RECV:一个连接请求已经到达,等待确认 SYN-SENT:应用已经开始,打开一个连接 ESTABLISHED:已经建立的连接 FIN-WAIT1:主动断开一方,第一次发送完FIN FIN-WAIT2:主动断开一方,收到对端确认的ACK TIME-WAIT:主动断开一方,收到FIN-ACK CLOSE-WAIT:被动断开一方,收到对方FIN且发送完ACK后 LAST-AC…
不多说,直接上干货! 一般,普通的情况是 全网最详细的hive-site.xml配置文件里添加<name>hive.cli.print.header</name>和<name>hive.cli.print.current.db</name>前后的变化(图文详解) <configuration> <property> <name>javax.jdo.option.ConnectionURL</name> <…
转自:http://blog.csdn.net/opensure/article/details/46715769 JVM常用调试参数: –verbose:gc在虚拟机发生内存回收时在输出设备显示信息 -Xloggc:filename把GC相关日志信息记录到文件以便分析 -XX:-HeapDumpOnOutOfMemoryError当首次遭遇OOM时导出此时堆中相关信息 -XX:OnError="<cmdargs>;<cmd args>" 出现致命ERROR之后…
一.JVM常用启动参数 -Xms:设置堆的最小值. -Xmx:设置堆的最大值. -Xmn:设置新生代的大小. -Xss:设置每个线程的栈大小. -XX:NewSize:设置新生代的初始值. -XX:MaxNewSize:设置新生代的最大值. -XX:PermSize:设置永久代的初始值. -XX:MaxPermSize:设置永久代的最大值. -XX:SurvivorRatio:年轻代中Eden区与Survivor区的大小比值. -XX:PretenureSizeThreshold:令大于这个设置…