Hive ORC + SNAPPY

Hive orc 格式 + snappy 压缩是比较常用的存储加压缩格式。

今天处理下面的场景时，解决了一些问题，记录下来：

flume消费kafka的数据实时写入hdfs，通过创建分区表，t + 1 时，需要看到昨天的数据：

　　 flume 通过snappy 将数据写入hdfs，可以通过在fliume.conf中配置以下

保证每天的数据写入同一个目录中：

agent.sinks.hdfs_sink.hdfs.path = /user/hive/warehouse/ods.db/kafka_2_hdfs_test/ods_sale_alter/dt=%Y-%m-%d

避免在hdfs写入过多的小文件：
```
tier1.sinks.hdfs_sink.hdfs.idleTimeout=
```
这个参数是某个topic停止活动时间超过设置的值时，就把hdfs上文件结尾的.tmp去掉，并开始写入新文件。设置为0，表示忽略停止时间。
配置了2的参数后，会造成一个问题，当新的一天，数据开始写入hdfs上另一个目录后，
比如"dt=2019-03-02","dt=2019-03-01"文件夹下的最后一个文件，还是以.tmp结尾的，在hive建表后，数据格式错误会报错。
所以需要我们通过脚本，每天修复文件名称：
```
hadoop -mv abc.tmp abc
```
另外就是hive建表的问题：
当数据导入hdfs后，我们想针对flume倒过来的数据，建立snappy压缩，orc格式的hive表。
建表语句如下：
```
DROP TABLE IF EXISTS test_orc_snappy;

CREATE EXTERNAL TABLE test_orc_snappy (

  x_json string

  )

PARTITIONED BY (`dt` string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY "\t"

STORED AS orc

LOCATION '/user/hive/warehouse/ods.db/kafka_2_hdfs_test/test_orc_snappy'

TBLPROPERTIES ("orc.compress"="SNAPPY");
```
然而，我忽略了一件很重要的事，文件虽然用了snappy压缩，但是没有转化为orc格式。
假如我们还想继续使用orc格式，那就只能把这张表当做底层表，在上层表比如 dw 层，中通过insert into的方式，
转为orc格式的表。

那么这里可以使用的建表语句是什么呢？

CREATE EXTERNAL TABLE test_snappy (

  x_json string

  )

PARTITIONED BY (`dt` string)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY "\t"

STORED AS textfile

LOCATION '/user/hive/warehouse/ods.db/kafka_2_hdfs_test/ods_sale_alter'

TBLPROPERTIES ("orc.compress"="SNAPPY")

使用textFile就可以了。

Hive ORC + SNAPPY的更多相关文章

大数据：Hive - ORC 文件存储格式
一.ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache ...
Hive - ORC 文件存储格式【转】
一.ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache ...
Sqoop-将MySQL数据导入到hive orc表
sqoop创建并导入数据到hive orc表 sqoop import \ --connect jdbc:mysql://localhost:3306/spider \ --username root ...
Hive:ORC File Format存储格式详解
一.定义 ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化. 据官方文档介绍,这种文件格式可以提供一种高效的方法来存储 ...
hive orc压缩数据异常java.lang.ClassCastException: org.apache.hadoop.io.Text cannot be cast to org.apache.hadoop.hive.ql.io.orc.OrcSerde$OrcSerdeRow
hive表在创建时候指定存储格式 STORED AS ORC tblproperties ('orc.compress'='SNAPPY'); 当insert数据到表时抛出异常 Caused by: ...
hive orc update
hive-site.xml --><configuration> <!-- WARNING!!! This file is auto generated for documen ...
Hive ORC表的使用
创建普通临时表: create table if not exists test_orc_tmp( name string, gender string, cnt BIGINT )row ...
Hive存储格式之ORC File详解，什么是ORC File
目录概述文件存储结构 Stripe Index Data Row Data Stripe Footer 两个补充名词 Row Group Stream File Footer 条纹信息列统计元 ...
Hive Streaming 追加 ORC 文件
1.概述在存储业务数据的时候,随着业务的增长,Hive 表存储在 HDFS 的上的数据会随时间的增加而增加,而以 Text 文本格式存储在 HDFS 上,所消耗的容量资源巨大.那么,我们需要有一种方 ...

随机推荐

简单理解RNA-seq
简单理解RNA-seq 刘小泽已关注 2018.10.17 23:51* 字数 1518 阅读 46评论 0喜欢 3 今天就当一个小故事看吧,看了statQuest,感觉讲的很棒,于是分享给大家原版 ...
网页启用Gzip压缩提高浏览速度
启用Gzip压缩的好处它的好处显而易见,提高网页浏览速度,无论是之前说的精简代码.压缩图片都不如启用Gzip来的实在.下图为启用Gzip后的效果. Gzip压缩效率非常高,通常可以达到70%的压缩率 ...
TCHAR函数查询
https://blog.csdn.net/is2120/article/details/27542927
[SoapUI] 通过JSONAssert比较两个环境的JSON Response，定制化错误信息到Excel
package ScriptLibrary; import org.json.JSONArray; import org.json.JSONException; import org.json.JSO ...
rapidjson 的封装学习
#pragma once #include "Util.h" #include "rapidjson/writer.h" #include "rapi ...
数据结构和Java集合
list接口,可重复,有序的.list有arrayList,因为是数组结构,适合用在数据的查询,linkedList,因为是链表结构,适合用在增删操作.数组如果增删的话,需要后面的元素都往前或者往后移 ...
什么时候出现死锁，如何解决？mysql 引擎? 多个like or 查询sql如何优化？什么是常量池？for条件执行顺序
1. 什么时候出现死锁,如何解决?mysql 引擎? 多个like or 查询sql如何优化? 资源竞争导致死锁,比如A B 同时操作两条记录,并等待对方释放锁. 优化sql, 加缓存,主从(如读写分 ...
【UI测试】－－易用性
day16正则表达式作业
1.匹配一篇英文文章的标题类似 The Voice Of China #([A-Z][a-z]*)( [A-Z][a-z]*)* 2.匹配一个网址 #(https|http|ftp):\/\/[^\ ...
mysql 批量杀进程
select concat('KILL ',id,';') from information_schema.processlist where user='root';

Hive ORC + SNAPPY

Hive ORC + SNAPPY的更多相关文章

随机推荐

热门专题