前言 Hive是由Facebook 开源用于解决海量结构化日志的数据统计,是基于Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL查询功能. 在资源有限的情况下,提高作业的查询效率从而达到快速产出数据的想法势在必行.掌握Hive的调优方法能够提升工作效率同时提高任务执行的稳定性.本文会从以下几个方面介绍Hive调优的思路: 设计优化 存储优化 作业优化 1.设计优化 分区表和索引 对表进行合理的管理以及提高查询效率,分区是表的部分列的集合,可以为频繁使用的数据…