一.数据仓库 数据仓库是一个面向主题的.集成的.随时间变化,但信息本身相对稳定的数据集合,相比于传统型数据库,它主要用于支持企业或组织的决策分析处理.主要有以下3个特点: 数据仓库是面向主题的: 数据仓库中的数据是按照一定的主题域进行组织,大概意思就是说存的数据是一类数据 数据仓库是随时间变化的: 其中存的数据是有时序的,会保存很长一段时间的数据 数据仓库相对稳定: 数据仓库主要是用来进行数据的查询,很少进行修改和删除 数据仓库的结构 二.Hive简介 2.1 Hive简介 Hive最初是Fac…
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理.特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行. 一.概述 1-1 数据仓库概念 数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrated).相对稳定的(Non-Volatile).反应历史变化(Time Variant)的数据集合,用于支持…
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合.它是单个数据存储,出于分析性报告和决策支持目的而创建. 为需要业务智能的企业,提供指导业务流程改进.监视时间.成本.质量以及控制. 数据仓库和数据库的区别: 1. 逻辑层面/概念层面:数据库和数据仓库其实是一样的或者及其相似的,都是通过某个数据库软件,基于某种数据模型来组织.管理数据.但是,数据库通常更关注业务交易处理(OLTP),而数据仓库更关注数据分析层面(OLAP),由此产生的数据库模型上也会有很大的差异.数据库通常…
Hive的用处,就是把hdfs里的文件建立映射转化成数据库的表 但hive里的sql语句都是转化成了mapruduce来对hdfs里的数据进行处理 ,并不是真正的在数据库里进行了操作. 而那些表的定义则是储存在了mysql数据库中,他只是记录相应表的定义 所以你的集群中要有一台机器装了mysql 装hive,装到哪都行 然后解压tar –zxvf xxxxx –C apps 然后进入到这个目录里下的conf里 创建hive-site.xml文件 告诉他mysql在哪,连接驱动是啥,用户名和密码…
阅读目录 序 介绍 安装 系列索引 本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序 本系列已经有一个多月没更新了,期间涉及到找相关对应的工作,所幸的事,得到了几个offer,后来综合考虑来到了目前这家工作.希望在接下来的时间里,能融入整个社区中去,做出自己略微的贡献. 上一篇,我们列举了hadoop常用的命令,本应该给大家实战下命令的使用的,后来还是想大家自己下去试验试验,接下来开始初略介…
Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析.在本质上,Hive与Pig一样,都是将相应的查询语句转换为MapReduce程序,简化数据处理过程.不过相比Pig来说,Hive使用的HiveQL语言很接近SQL语言,因此对于开发人员来说更容易上手,使用频率也更高. 一.Hive基础知识 1.基本概念  Hive是一个建立在Hadoop…
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理 大数据系列之数据仓库Hive安装 大数据系列之数据仓库Hive中分区Partition如何使用 大数据系列之数据仓库Hive命令使用及JDBC连接 Hive主要分为以下几个部分 ⽤户接口1.包括CLI,JDBC/ODBC,WebUI元数据存储(metastore)1.默认存储在⾃带的数据库derby中,线上使⽤时⼀般换为MySQL驱动器(Driver)1.解释器.编译器.优化器.执⾏器Hadoop1.⽤MapReduce 进⾏计…
Hive: 基于 Hadoop 的数据仓库工具 前言 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,将类 SQL 语句转换为 MapReduce 任务执行. 数据组织格式 下面是直接存储在HDFS上的数据组织方式 Table:每个表存储在HDFS上的一个目录下 Partition(可选):每个Partition存储再Table的子目录下 Bucket(可选):某个Partition根据某个列的hash值散列到不同的B…
什么是Hive? 我来一个短而精悍的总结(面试常问) 1:hive是基于hadoop的数据仓库建模工具之一(后面还有TEZ,Spark). 2:hive可以使用类sql方言,对存储在hdfs上的数据进行分析和管理. Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数…
1.前言 说明:安装hive前提是要先安装hadoop集群,并且hive只需要再hadoop的namenode节点集群里安装即可(需要再所有namenode上安装),可以不在datanode节点的机器上安装.另外还需要说明的是,虽然修改配置文件并不需要你已经把hadoop跑起来,但是本文中用到了hadoop命令,在执行这些命令前你必须确保hadoop是在正常跑着的,而且启动hive的前提也是需要hadoop在正常跑着,所以建议你先将hadoop跑起来在按照本文操作.有关如何安装和启动hadoop…