Apache Hive 存储方式、压缩格式

简介：

Apache hive 存储方式跟压缩格式！

1、Text File

hive> create external table tab_textfile (

host string comment 'client ip address',

local_time string comment 'client access time',

api string comment 'request api',

request_type string comment 'request method, http version',

http_code int, body_bytes int, request_body map<string, string>,

referer string, user_agent string, upstr string, response_time string, request_time string)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' COLLECTION ITEMS TERMINATED BY '&' MAP KEYS TERMINATED BY '=';

OK

Time taken: 0.162 seconds

# 创建一张 Text File 存储格式、不压缩的外部表

hive> load data local inpath '/data/logs/api/201711/tvlog_20171101/bftvapi.20171101.log' overwrite into table tab_textfile;

Loading data to table tmpdb.tab_textfile

OK

Time taken: 1015.974 seconds

# 原始文件 9.8G，加载到该表中需要花费 1015.974 秒 ( 这里可以优化，不使用 load 指令，直接 put 文件到数据表目录 )

hive> select count(*) from tab_textfile;

...

Stage-Stage-: Map:   Reduce:    Cumulative CPU: 269.51 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  minutes  seconds  msec

OK

Time taken: 95.68 seconds, Fetched:  row(s)

# 总共 27199202 行数据，用时 95.68 秒
# 优化点：set [ hive.exec.reducers.bytes.per.reducer=<number>, hive.exec.reducers.max=<number>, mapreduce.job.reduces=<number> ]

2、ORC File

# 官方文档：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC

# ORC文档：https://orc.apache.org/docs

hive> create external table tab_orcfile (

host string comment 'client ip address',

local_time string comment 'client access time',

api string comment 'request api',

request_type string comment 'request method, http version',

http_code int, body_bytes int, request_body map<string, string>,

referer string, user_agent string, upstr string, response_time string, request_time string)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' COLLECTION ITEMS TERMINATED BY '&' MAP KEYS TERMINATED BY '='

STORED AS ORC tblproperties ("orc.compress"="NONE");

OK

Time taken: 0.058 seconds

# 创建一张 ORC File 存储格式、不压缩的外部表

hive> insert overwrite table tab_orcfile select * from tab_textfile;

...

Stage-Stage-: Map:    Cumulative CPU: 2290.24 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  minutes  seconds  msec

OK

Time taken: 289.954 seconds

# 向 tab_orcfile 中加载数据，注意：ORC File 不能直接 load data !!!

# 可以先创建 Text File 的临时表，将数据手动上传到该表指定目录，然后转换成 ORC File 格式。

hive> select count(*) from tab_orcfile;

OK

Time taken: 2.555 seconds, Fetched:  row(s)

# 额，同样的语句，上面执行花费 95.68 秒，现在只要 2.555 秒。
# 换一种方式测试，先查 tab_orcfile 表，然后再查 tab_textfile 表。

hive> select count(host) from tab_orcfile;

...

Stage-Stage-: Map:   Reduce:    Cumulative CPU: 81.02 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  minutes  seconds  msec

OK

Time taken: 33.55 seconds, Fetched:  row(s)

# ORC File 花费 33.55 秒

hive> select count(host) from tab_textfile;

...

Stage-Stage-: Map:   Reduce:    Cumulative CPU: 349.77 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  minutes  seconds  msec

OK

Time taken: 87.308 seconds, Fetched:  row(s)

# Text File 花费 87.308 秒，高下立见！

3、启用压缩

# ORC 文档：https://orc.apache.org/docs/hive-config.html

hive> create external table tab_orcfile_zlib (

host string comment 'client ip address',

local_time string comment 'client access time',

api string comment 'request api',

request_type string comment 'request method, http version',

http_code int, body_bytes int, request_body map<string, string>,

referer string, user_agent string, upstr string, response_time string, request_time string)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '|' COLLECTION ITEMS TERMINATED BY '&' MAP KEYS TERMINATED BY '='

STORED AS ORC;

# 默认的 ORC 压缩方式为 ZLIB，还支持 LZO、SNAPPY 等

hive> insert overwrite table tab_orcfile_zlib select * from tab_textfile;

...

Stage-Stage-: Map:    Cumulative CPU: 2344.68 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  minutes  seconds  msec

OK

Time taken: 299.204 seconds

# 数据加载完成

hive> select count(host) from tab_orcfile_zlib;

...

Stage-Stage-: Map:   Reduce:    Cumulative CPU: 43.66 sec   HDFS Read:  HDFS Write:  SUCCESS

Total MapReduce CPU Time Spent:  seconds  msec

OK

Time taken: 31.369 seconds, Fetched:  row(s)

# 查询速度不受影响

hive> dfs -ls -h /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/

Found  items

-rwxrwxrwx    root supergroup     24.6 M -- : /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/000000_0

-rwxrwxrwx    root supergroup     23.0 M -- : /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/000001_0

-rwxrwxrwx    root supergroup     25.9 M -- : /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/000002_0

-rwxrwxrwx    root supergroup     26.5 M -- : /user/hive/warehouse/tmpdb.db/tab_orcfile_zlib/000003_0

# 总共分成 39 个文件，每个平均 25M，总过不到 1G，原始文件 9.8G，这压缩比如何？

Apache Hive 存储方式、压缩格式的更多相关文章

Hive 表数据的存储和压缩格式
SerDe * 按行存储 * 按列存储 file_format: : | SEQUENCEFILE 序列化(行存储) | TEXTFILE 文本格式(行存储)- (Default, depending ...
Hadoop_常用存储与压缩格式
HDFS文件格式 file_format: TEXTFILE 默认格式 RCFILE hive 0.6.0 和以后的版本 ORC hive 0.11.0 和以后的版本 PARQUET hive 0.1 ...
Hive支持的文件格式和压缩格式及各自特点
Hive中的文件格式 1-TEXTFILE 文本格式,Hive的默认格式,数据不压缩,磁盘开销大.数据解析开销大. 对应的hive API为:org.apache.hadoop.mapred.Text ...
一文彻底搞懂Hive的数据存储与压缩
目录行存储与列存储行存储的特点列存储的特点常见的数据格式 TextFile SequenceFile RCfile ORCfile 格式数据访问 Parquet 测试准备测试数据存储空间 ...
hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...
Hive压缩格式
TextFile Hive数据表的默认格式,存储方式:行存储. 可使用Gzip,Bzip2等压缩算法压缩,压缩后的文件不支持split 但在反序列化过程中,必须逐个字符判断是不是分隔符和行结束符,因此 ...
Hive(十一)【压缩、存储】
目录一.Hadoop的压缩配置 1.MR支持的压缩编码 2.压缩参数配置 3.开启Mapper输出阶段压缩 4.开启Reduceer输出阶段二.文件存储 1.列式存储和行式存储 2.TextFil ...
浓缩的才是精华：浅析GIF格式图片的存储和压缩
成文迪, 在Web前端摸爬滚打的码农一枚,对技术充满热情的菜鸟,致力为手Q的建设添砖加瓦. GIF格式的历史 GIF(Graphics Interchange Format)原义是"图像互换 ...
【腾讯Bugly干货分享】舞动的表情包——浅析GIF格式图片的存储和压缩
本文来自于腾讯Bugly公众号(weixinBugly),未经作者同意,请勿转载,原文地址:https://mp.weixin.qq.com/s/v0pffOhjFWnVbU2lXjuEmw 导语 G ...

随机推荐

chrome浏览器network面板出现：Provisional headers are shown 提示
一般来说,如果看到这个提示,说明这个请求并没有发送出去. 具体原因有多种: 请求被某些扩展如 Adblock 拦截了请求被墙了走本地缓存或者 dataurl 的请求 client发送请求后,由于各 ...
linux raid10管理维护
http://www.linuxidc.com/Linux/2015-10/124391.htm 制作raid10 http://www.linuxidc.com/Linux/2015-09/1 ...
Android NDK R9 安装配置无需Cygwin
转自:http://www.cr173.com/soft/66623.html NDK是一个工具集,可让您实现您的应用程序使用本机代码的语言,如C和C + +.Android NDK 是在SDK前面又 ...
bzoj3295 动态逆序对
Description 对于序列A,它的逆序对数定义为满足i<j,且Ai>Aj的数对(i,j)的个数.给1到n的一个排列,按照某种顺序依次删除m个元素,你的任务是在每次删除一个元素之前统计 ...
bzoj4236 JOIJOI
Description JOIOJI桑是JOI君的叔叔.“JOIOJI”这个名字是由“J.O.I”三个字母各两个构成的. 最近,JOIOJI桑有了一个孩子.JOIOJI桑想让自己孩子的名字和自己一样由 ...
【比特币】通过dns seeds获取节点列表数据
通过dns seeds获取节点列表数据 dns seed是什么返回比特币网络上完整节点IP地址的DNS服务器,用于协助发现节点. 哪里可以查看到我们在bitcoinj库中,params文件夹内为网 ...
解决Ubuntu下使用命令行subl 打开Sublime text3无法输入中文的问题
cd /opt/sublime_text/ sudo vim sub-fcitx.c 新建文件sub-fcitx.c,建议放在Sublime Text的所在目录下,将下面的代码复制进去 ,参考: ht ...
file_get_contents是打工文件或URL获取内容的方法，比其稳定的还有curl_get_contents
相信使用过file_get_contents函数的朋友都知道,当获取的$url访问不了时,会导致页面漫长的等待,甚至还能导致PHP进程占用CPU达100%,因此这个函数就诞生了分享一个实际在用的函数 ...
Asterisk重要App
elastix82*CLI> core show application SoftHangup -= Info about application 'SoftHangup' =- [Synop ...
mysql更新(五) 完整性约束外键的变种三种关系数据的增删改
11-数据的增删改本节重点: 插入数据 INSERT 更新数据 UPDATE 删除数据 DELETE 再来回顾一下之前我们练过的一些操作,相信大家都对插入数据.更新数据.删除数据有了全面的认识. ...

Apache Hive 存储方式、压缩格式

Apache Hive 存储方式、压缩格式的更多相关文章

随机推荐

热门专题