Hive表的几种存储格式

Hive的文件存储格式：

textFile

　　　　textFile为默认格式

　　　　存储方式：行存储

　　　　缺点：磁盘开销大；数据解析开销大；压缩的text文件，hive无法进行合并和拆分

sequencefile

　　　　二进制文件，以<key,value>的形式序列化到文件中

　　　　存储方式：行存储

　　　　优点：可分割、压缩，一般选择block压缩，与hadoop api中的mapfile是互相兼容的。

Rcfile

　　　　存储方式：数据按行分块每块按照列存储

　　　　压缩快快速列存取

　　　　读记录尽量涉及到的block最少

　　　　读取需要的列只需要读取每个row group 的头部定义。

　　　　读取全量数据的操作性能可能比sequencefile没有明显的优势

　　　　存储方式：数据按行分块每块按照列存储

　　　　压缩快快速列存取

　　　　效率比rcfile高，是rcfile的改良版本

　　　　官网介绍：

　　　　The Optimized Row Columnar (ORC) file format provides a highly efficient way to store Hive data. It was designed to overcome limitations of the other Hive file formats. Using ORC files improves performance when Hive is reading, writing, and processing data.

　　　　ORC实际上是在RC文件存储格式做了一些优化，它的主要优点有：
　　　　　　(1)、每个task只输出单个文件，这样可以减少NameNode的负载；
　　　　　　(2)、支持各种复杂的数据类型，比如： datetime, decimal, 以及一些复杂类型(struct, list, map, and union)；
　　　　　　(3)、在文件中存储了一些轻量级的索引数据；
　　　　　　(4)、基于数据类型的块模式压缩：a、integer类型的列用行程长度编码(run-length encoding);b、String类型的列用字典编码(dictionary encoding)；
　　　　　　(5)、用多个互相独立的RecordReaders并行读相同的文件；
　　　　　　(6)、无需扫描markers就可以分割文件；
　　　　　　(7)、绑定读写所需要的内存；
　　　　　　(8)、metadata的存储是用 Protocol Buffers的，所以它支持添加和删除一些列。

自定义格式

　　　　用户可以通过实现inoutformat和outputformat来定义输入输出格式。

Hive表的几种存储格式的更多相关文章

hive表的存储格式; ORC格式的使用
hive表的源文件存储格式有几类: 1.TEXTFILE 默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理.源文件可以直接通过hadoop fs -cat 查 ...
hive 压缩全解读(hive表存储格式以及外部表直接加载压缩格式数据)；HADOOP存储数据压缩方案对比（LZO,gz，ORC）
数据做压缩和解压缩会增加CPU的开销,但可以最大程度的减少文件所需的磁盘空间和网络I/O的开销,所以最好对那些I/O密集型的作业使用数据压缩,cpu密集型,使用压缩反而会降低性能. 而hive中间结果 ...
hive建表没使用LZO存储格式，可是数据是LZO格式时遇到的问题
今天微博大数据平台发邮件来说.他们有一个hql执行失败.可是从gateway上面的日志看不出来是什么原因导致的,我帮忙看了一下.最后找到了问题的解决办法,下面是分析过程: 1.执行失败的hql: IN ...
Hive 表操作（HIVE的数据存储、数据库、表、分区、分桶）
1.Hive的数据存储 Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式存储结构主要包括:数据库.文件.表.试图 Hive默认可以直接加载文本文件(TextFile),还 ...
hive中的一种假NULL现象
使用hive时,我们偶尔会遇到这样的问题,当你将结果输出到屏幕时,查出的数据往往显示为null,但是当你将结果输出到文本时,却显示为空(即未填充),这是为什么呢? 在hive中有一种假NULL,它看起 ...
导hive表项目总结（未完待续）
shell里面对日期的操作 #!/bin/bash THIS_FROM=$(date +%Y%m%d -d "-7 day") THIS_TO=$(date +%Y-%m-%d - ...
Spark 读写hive 表
spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...
Spark访问与HBase关联的Hive表
知识点1:创建关联Hbase的Hive表知识点2:Spark访问Hive 知识点3:Spark访问与Hbase关联的Hive表知识点1:创建关联Hbase的Hive表两种方式创建,内部表和外部表 ...
一起学Hive——详解四种导入数据的方式
在使用Hive的过程中,导入数据是必不可少的步骤,不同的数据导入方式效率也不一样,本文总结Hive四种不同的数据导入方式: 从本地文件系统导入数据从HDFS中导入数据从其他的Hive表中导入数据 ...

随机推荐

群晖NAS再再折腾
问题最近电信把我的公网地址收回去了,之前做好的网络端口映射失效了,在公司已经不能愉快地访问家里的网络.原先网络结构示意图如下: (直接访问方案网络结构图) 只需要对电信光猫(也是个路由器)和家用 ...
一篇文章看懂JS闭包，都要2020年了，你怎么能还不懂闭包？
壹 ❀ 引我觉得每一位JavaScript工作者都无法避免与闭包打交道,就算在实际开发中不使用但面试中被问及也是常态了.就我而言对于闭包的理解仅止步于一些概念,看到相关代码我知道这是个闭包,但闭包 ...
Mysql - 高可用方案之MM+Keepalived
一.概述本文将介绍mysql的MM+Keepalived方案.该方案由两个mysql服务器组成,这两个mysql互为主备.其中一台主作为写服务器,另一台主作为读服务器.通过keepalived软件管 ...
C#通用查询器
很多通用查询器,对查询条件中的AND及OR的支持度不是很好,要么全部是AND要么全部是OR.笔者通过一段时间的摸索,终于完成了一个自己较为满意的通用查询器, 可以实现多条件的AND及OR,现将实现过程 ...
go 中recover捕获异常
recover 仅在延迟函数 defer 中有效,在正常的执行过程中,调用 recover 会返回 nil 并且没有其他任何效果.重要的事再说一遍:仅当在一个defer函数中被完成时,调用recove ...
MySQL索引查询原理
什么是索引? “索引”是为了能够更快地查询数据.比如一本书的目录,就是这本书的内容的索引,读者可以通过在目录中快速查找自己想要的内容,然后根据页码去找到具体的章节. 数据库也是一样,如果查询语句使用到 ...
过滤器（Filter）对登陆页面进行过滤验证
import javax.servlet.*;import javax.servlet.annotation.WebFilter;import javax.servlet.http.HttpServl ...
node error SOCKET error:10106
上周我的node.js command prompt出错了,什么也干不了 SOCKET error:10106 纠结两天,终于搞定了,其实比较简单,就是不会弄起来好麻烦参考: 作者:忆常 url: ...
Word文档转为MD
最近整理近年的一些知识笔记,需要将一些之前用word写好的文档转为markdown格式,主要的方法是先将word转换为html格式,再将html转换为markdown格式. Step1. Word t ...
IDEA新建servlet时出现的错误
未注入Tomcat里lib文件下的jar 这样即可

Hive表的几种存储格式

Hive表的几种存储格式的更多相关文章

随机推荐

热门专题