hive之调优】的更多相关文章

本文记录的是,在数据处理过程中,遇到了一个sql执行很慢,对一些大型的hive表还会出现OOM,一步一步通过参数的设置和sql优化,将其调优的过程. 先上sql ) t where t.num =1) t2 on t1.id = t2.id where t2.id = NULL; 可以看到这个sql由1个join,一个去重语句,组成,这两种操作都是很耗费资源的. 1.对链接操作,小表放在链接左边. 这是一个老生常谈的事情了,在这里不做细致介绍.基本来说,小表会减少mapreduce过程中的shu…
一.Fetch抓取 1.理论分析 Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台. 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找.字段查找.limit查找等…
调优 Hive提供三种可以改变环境变量的方法,分别是: (1)修改${HIVE_HOME}/conf/hive-site.xml配置文件: 所有的默认配置都在${HIVE_HOME}/conf/hive-default.xml文件中,如果需要对默认的配置进行修改,可以创建一个hive-site.xml文件,放在${HIVE_HOME}/conf目录下.里面可以对一些配置进行个性化设定.这里做的配置都全局用户都生效,而且是永久的. (2)命令行参数: 在启动Hive cli的时候进行配置,可以在命…
9.企业级调优 9.1 Fetch 抓取 Fetch 抓取:Hive 中对某些情况的查询可以不必使用 MapReduce 计算: hive.fetch.task.conversion:more 9.2 本地模式 大多数的 Hadoop Job 是需要 Hadoop 提供完整的可扩展性来处理大数据集的.不过,有时 Hive 的输入数据量是非常小的.在这种情况下,为查询触发执行任务消耗的时间可能会比实际job的执行时间要多的多.对于大多数这种情况,Hive 可以通过本地模式在单台机器上处理所有的任务…
根据.方案最右侧一栏是一个8G VM的分配方案,方案预留1-2G的内存给操作系统,分配4G给Yarn/MapReduce,当然也包括了HIVE,剩余的2-3G是在需要使用HBase时预留给HBase的. 内存调优 一.AM.Container大小设置1.tez.am.resource.memory.mb #设置 tez AM容器内存 配置文件:tez-site.xml 建议:不小于或者等于yarn.scheduler.minimum-allocation-mb值. .hive.tez.conta…
调优 1 Fetch抓取(Hive可以避免进行MapReduce) Hive中对某些情况的查询可以不必使用MapReduce计算.例如:SELECT * FROM employees;在这种情况下,Hive可以简单地读取employee对应的存储目录下的文件,然后输出查询结果到控制台. 在hive-default.xml.template文件中hive.fetch.task.conversion默认是more,老版本hive默认是minimal,该属性修改为more以后,在全局查找.字段查找.l…
1.关于hive的优化 ->大表拆分小表 ->过滤字段 ->按字段分类存放 ->外部表与分区表 ->外部表:删除时只删除元数据信息,不删除数据文件 多人使用多个外部表操作同一份数据文件 ->分区表:hive中的数据库,表,分区来说都是文件夹 提高了检索效率 ->手动创建 ->动态分区 ->外部表+分区表 ->数据的存储 ->存储格式:列式存储 ->压缩 2.SQL的优化 ->后join先filter 3.mapreduce的优化…
1.关于hive的优化 ->大表拆分小表 ->过滤字段 ->按字段分类存放 ->外部表与分区表 ->外部表:删除时只删除元数据信息,不删除数据文件 多人使用多个外部表操作同一份数据文件 ->分区表:hive中的数据库,表,分区来说都是文件夹 提高了检索效率 ->手动创建 ->动态分区 ->外部表+分区表 ->数据的存储 ->存储格式:列式存储 ->压缩 2.SQL的优化 ->后 join 先 filter 3.mapreduce…
避免执行MR select * or select field1,field2 limit 10 where语句中只有分区字段或该表的本地字段 使用本地set hive.exec.mode.local.auto=true; EXPLAIN的使用 hive对sql的查询计划信息解析 EXPLAIN SELECT COUNT(1) FROM T_TABLE; EXPLAIN EXTENDED SELECT COUNT(1) FROM T_TABLE;(更为详细) 本地MR(提高本地资源利用率,一般在…
(官方文档翻译整理及总结) 一.优化数据仓库 ① Hive LLAP  是一项接近实时结果查询的技术,可用于BI工具以及网络看板的应用,能够将数据仓库的查询时间缩短到15秒之内,这样的查询称之为Interactive Query. Ambari安装好之后,还需要额外的两个步骤来开启Hive LLAP: 1.在yarn中开启Hive LLAP的优先使用权   2.打开hive中的Interactive Query开发并配置相关参数 ② HiveServer2 高效的连接管理,类似于mysql连接池…