Hive的数据存储(分区表) Hive的数据存储(分区表) 分区表 Partition对应于数据库的Partition列的密集索引 在Hive中,表中的一个Partition对应于表下的一个目录,所有的Partition的数据都存储在对应的目录中 那么如果我们要查询男性的身高,那么只需要扫描gender='M'的分区就好了 ○如何建立一张基于性别的分区表 create table partition_table(sid int,sname string)partitioned by (gende…
Hive的数据存储(内部表) Hive的数据存储(内部表) 基于HDFS 可使用hadoop给我们提供的web管理工具查看数据.打开管理工具localhost:9000–>Utilities下的Browse the file system–>/user/hive/warehouse就能看到表目录–>打开表目录能看到表文件–>点击表文件,会询问是否需要下载文件–>点击download,可以用编辑器查看文件 没有专门的数据存储格式(因为来自不同的数据库) 存储结构主要包括:数据库…
Hive的数据存储(视图) Hive的数据存储(视图) 视图(view) 视图是一种虚表,是一个逻辑概念:可以跨越多张表 既然视图是一种虚表,那么也就是说用操作表的方式也可以操作视图 但是视图是建立在已有表的基础上,视图赖以建立的这些表称为基表 视图最大的好处就是可以简化复杂的查询 现在有两张表 ①部门表 ②员工表 而在关系性数据库中两张表的deptno部门号是外键的关系 现在来建立一张视图来查询员工数据 --查询员工信息:员工号.姓名.月薪.年薪.部门名称create view empinfo…
Hive的数据存储(桶表) Hive的数据存储(桶表) 桶表 桶表是对数据进行哈希取值,然后放到不同文件中存储. 比如说,创建三个桶,而创建桶的原则可以按照左边表中学生的名字来创建对应的桶.这样子把左边的数据存到桶里面来的时候可以把学生名字经过哈希运算,把相同哈希运算的值的列存放在同一个桶当中.比如Tom.Jerry.Scott经运算以后它们的哈希值是一样的,那么这三个人的信息就会存放在相同的一个桶里面. 有了桶表以后,就能够降低系统的文件块,从而提高查询速度 ○ 如何创建桶表?(用名字进行创建…
Hive的数据存储(外部表) Hive的数据存储(外部表) 外部表 指向已经在HDFS中存在的数据,可以创建Partition 它和内部表在元数据的组织上是相同的,而实际数据的存储则有较大的差异 外部表只有一个过程,加载数据和创建表同时完成,并不会移动到数据仓库目录中,只是与外部数据建立一个链接.而删除一个外部表时,仅删除该链接 ○如何创建一个外部表? hdfs源文件查看 [root@hadooppseudo ~]# ls student0*student01.txt student02.txt…
1.Hive的数据存储 Hive的数据存储基于Hadoop HDFS Hive没有专门的数据存储格式 存储结构主要包括:数据库.文件.表.试图 Hive默认可以直接加载文本文件(TextFile),还支持sequence file 创建表时,指定Hive数据的列分隔符与行分隔符,Hive即可解析数据. 2.Hive的数据模型-数据库 类似传统数据库的DataBase 默认数据库"default" 使用#hive命令后,不使用hive>use <数据库名>,系统默认的数…
大数据软件安装之Hadoop(Apache)(数据存储及计算) 一.生产环境准备 1.修改主机名 vim /etc/sysconfig/network 2.修改静态ip vim /etc/udev/rules.d/70-persistent-net.rules vim /etc/sysconfig/network-scripts/ifcfg-eth0 DEVICE=eth0 TYPE=Ethernet ONBOOT=yes BOOTPROTO=static NAME="eth0" IP…
Hive入门(二) Hive入门(二) Hive的体系结构 ○ Hive的元数据 Hive将元数据存储在数据库中(metastore),支持mysql.derby.oracle等数据库,Hive默认是derby数据库 Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等 ○ HQL的执行过程 解释器.编译器.优化器完成HQL查询语句从词法分析.语法分析.编译.优化以及查询计划(Plan)的生成.生成的查询计划存储在HDFS中,并在随后有MapRed…
Hive入门(一) Hive入门(一) 什么是Hive? Hive是个数据仓库,数据仓库就是数据库,但又与一般意义上的数据库有点区别 实际上,Hive是构建在hadoop HDFS上的一个数据仓库. 什么又是数据仓库? 而数据仓库是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理 面向主题,那么什么又是主题呢?主题就是指用户使用数据仓库决策时所关心的重点的方面,比如商品的推荐系统,那么这里我们所关心的主题就是商品的信息 数据仓库是个集成的数据库,也就…
目录 行存储与列存储 行存储的特点 列存储的特点 常见的数据格式 TextFile SequenceFile RCfile ORCfile 格式 数据访问 Parquet 测试 准备测试数据 存储空间大小 测试SQL 执行效率 总结 Hive 压缩 Hive中间数据压缩 最终输出结果压缩 常见的压缩格式 Native Libraries Hive中的可用压缩编解码器 演示 总结 行存储与列存储 当今的数据处理大致可分为两大类,联机事务处理 OLTP(on-line transaction pro…