配置Hive数据仓库

1.在线安装mysql服务 #下载安装mysql yum install mysql mysql-server mysql-devel #启动mysql服务 cd /etc/ init.d/mysqld start #mysql连接并登录 mysql #修改登录mysql用户名及密码 USE mysql; UPDATE user SET Password=PASSWORD('password') WHERE user='root'; #设置允许远程登录 GRANT ALL PRIVILEGES…

Hive数据仓库工具安装

一.Hive介绍 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单SQL查询功能,SQL语句转换为MapReduce任务进行运行. 优点是可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析.缺点是Hive不适合在大规模数据集上实现低延迟快速的查询. 二.安装Hive 环境:Docker(17.04.0-ce).镜像Ubuntu(16.04.3).JDK(1.8.0_144).…

Ambari配置Hive，Hive的使用

mysql安装,hive环境的搭建 ambari部署hadoop 博客大牛:董的博客 ambari使用 ambari官方文档 hadoop 2.0 详细配置教程使用Ambari快速部署Hadoop大数据环境 hadoop相关shell命令 Ambari安装指南 Hadoop之hive学习 Hive 安装.配置.建表 hive内部表与外部表区别 Hadoop集群之Hive安装配置基于Hadoop数据仓库Hive1.2部署及使用 hive元数据库配置.metadata Hadoop+Hive环境…

hive数据仓库建设

hive数据仓库建设 1.设计原生日志表原生日志表用来存放上报的原始日志,数据经过清洗加工后会进入到各个日志表中. 1.1 创建数据库 #创建数据库 $hive>create database umeng_big11 ; 1.2 创建原生日志表原生表使用分区表设计,分区字段为ym/d/hm,hive使用动态分区表,分区采用非严格模式,即所有分区都可以是动态分区.hive命令行终端打开显式表头设置: #临时设置,只在当前回话有效 $hive>set hive.cli.print.header…

Hive数据仓库你了解了吗

在工作中我们经常使用的数据库,数据库一般存放的我们系统中常用的数据,一般为百万级别.如果数据量庞大,达到千万级.亿级又需要对他们进行关联运算,该怎么办呢? 前面我们已经介绍了HDFS和MapReduce了,它俩结合起来能够进行各种运算,可是MapReduce的学习成本太高了,如果有一种工具可以直接使用sql将hdfs中的数据查出来,并自动编写mapreduce进行运算,这就需要使用到我们的hive数据仓库. Hive基本概念什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结…

hive数据仓库入门到实战及面试

第一章.hive入门一.hive入门手册 1.什么是数据仓库 1.1数据仓库概念对历史数据变化的统计,从而支撑企业的决策.比如:某个商品最近一个月的销量,预判下个月应该销售多少,从而补充多少货源. 1.2传统数据仓库面临的挑战 (1)无法满足快速增长的海量数据存储需求 (2)无法有效处理不同类型的数据 (3)计算和处理能力不足 1.3 Hive介绍 Hbase支持快速的交互式的大数据应用 pig,Hive支持批量式的数据分析业务 1.4 Hive与传统数据库的对比 1.5 Hive在企业中的…

Hive数据仓库工具基本架构和入门部署详解

@ 目录概述定义本质特点 Hive与Hadoop关系 Hive与关系型数据库区别优缺点其他说明架构组成部分数据模型(Hive数据组织形式) Metastore(元数据) Compiler(编译器) Optimizer(优化器) 安装内嵌模式本地 MetaStore 远程 MetaStore hiveserver2 metastore 概述定义 Hive 官网 https://hive.apache.org/ Hive 官网Wiki文档 https://cwiki.apac…

Hadoop之Hive(2)--配置Hive Metastore

Hive metastore服务以关系性数据库的方式存储Hive tables和partitions的metadata,并且提供给客户端访问这些数据的metastore service的API.下面介绍一下Metastore部署的三种模式…

基于Cloudera Manager5配置HIVE压缩

[Author]: kwu 基于Cloudera Manager5配置HIVE压缩,配置HIVE的压缩.实际就是配置MapReduce的压缩,包含执行结果及中间结果的压缩. 1.基于HIVE命令行的配置 set hive.enforce.bucketing=true; set hive.exec.compress.output=true; set mapred.output.compress=true; set mapred.output.compression.codec=org.apache…

指导手册 07 安装配置HIVE

指导手册 07 安装配置HIVE 安装环境及所需安装包: 1.操作系统:centos6.8 2.四台虚拟机:master :10.0.2.4, slave1:10.0.2.5,slave2:10.0.2.6,slave3:10.0.2.7 3.Hadoop系统己安装完成. 4. mysql-5.7.23.tar.gz 5. apache-hive-2.1.1-bin.tar.gz 6. mysql-connector-java-5.1.47-bin.jar Part01 :centos上安装…

安装和配置hive

1.上传hive.mysql.mysql driver到服务器/mnt目录下: [root@chavin mnt]# ll mysql-5.6.24-linux-glibc2.5-x86_64.tar.gz apache-hive-0.13.1-bin.tar.gz mysql-connector-java-5.1.22-bin.jar -rw-r--r--. 1 root root 54246778 Mar 13 10:46 apache-hive-0.13.1-bin.tar.gz -rw…

Hive初步使用、安装MySQL 、Hive配置MetaStore、配置Hive日志《二》

一.Hive的简单使用基本的命令和MySQL的命令差不多首先在 /opt/datas 下创建数据 students.txt 1001 zhangsan 1002 lisi 1003 wangwu 显示有多少数据库: show databases; 使用某个数据库: use 数据库名称; 显示当前数据库下的表: show tables; 创建数据表 : create table student (id int,name string) ROW FORMAT DELIMITED FIELDS…

CM记录-配置Hive on Spark

默认hive on spark是禁用的,需要在Cloudera Manager中启用.1.登录CM界面,打开hive服务.2.单击配置标签,查找enable hive on spark属性.3.勾选Enbale Hive on Spark(Unsupported),并保存更改.4.查找Spark on YARN 服务,并勾选保存.5.保存后,重新部署下客户端使其生效. 在Spark上配置Hive 最低要求角色: 配置器(也由群集管理员提供,完全管理员)要配置Hive在Spark上运行,请执行…

Mac下配置Hive环境

在配置Hive环境之前,需要Hadoop环境. 安装Hive 点击下载下载结束后,会有一个.tar文件,使用以下命令解压该文件. tar -zxvf 要解压的tar包解压完成后如下修改Hive配置文件在hive安装目录下的conf中,将所有后缀为.template的文件复制一遍,新文件名称只需要去掉.template即可,如下 cp hive-default.xml.template hive-default.xml 编辑hive-site.xml文件 vim hive-site.xml…

HIVE—数据仓库

1. hive是什么? Hive是基于 Hadoop 的一个数据仓库工具: 1. hive本身不提供数据存储功能,使用HDFS做数据存储: 2. hive也不分布式计算框架,hive的核心工作就是把sql语句翻译成MR程序: 3. hive也不提供资源调度系统,也是默认由Hadoop当中YARN集群来调度: 4. 可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能. 2. hive和Hadoop关系 Hive利用HDF…

高速查询hive数据仓库表中的总条数

Author: kwu 高速查询hive数据仓库中的条数.在查询hive表的条数,通常使用count(*).可是数据量大的时候,mr跑count(*)往往须要几分钟的时间. 1.传统方式获得总条数例如以下: select count(*) from ods.tracklog; 执行时间为91.208s 2.与关系库一样hive表也能够通过查询元数据来得到总条数: select d.NAME,t.TBL_NAME,t.TBL_ID,p.PART_ID,p.PART_NAME,a.PARAM_VAL…

配置Hive 支持 JSON 存储

1.说明 hive默认使用分隔符如空格,分号,"|",制表符\t来格式化数据记录,对于复杂数据类型如json,nginx日志等,就没有办法拆分了,这时候需要更加强大的SerDe来处理复杂数据, 如使用JsonSerDe或者使用正则表达式RegSerDe来处理. 2.下载jar包 json-serde-1.3.8-jar-with-dependencies.jar: http://www.congiu.net/hive-json-serde/1.3.8/hdp23/json-serde-…

Superset配置hive数据源

1.在uri中配置 hive://localhost:10000/default 2.查询 3.如果你的hive集群是带有kerberos认证的,hive数据源需要这样配置 hive://xxx:xxx/default?auth=KERBEROS&kerberos_service_name=hive 如果在连接的时候报了如下的错 Could not start SASL: b'Error in sasl_client_start (-1) SASL(-1): generic failure: G…

配置 Hive On Tez

配置 Hive On Tez 标签(空格分隔): hive Tez 部署底层应用简单介绍介绍:tez 是基于hive 之上,可以将sql翻译解析成DAG计算的引擎.基于DAG 与mr 架构本身的优缺点,tez 本身经过测试一般小任务在hive mr 的2-3倍速度左右,大任务7-10倍左右,根据情况不同可能不一样. 对于 Tez-0.9.0 以及更高版本, Tez 需要 Apache Hadoop 版本为 2.7.0 或更高安装 Apache Hadoop 2.7.0 或更高版本,这里选取…

将CSV格式或者EXCEL格式的文件导入到HIVE数据仓库中

学习内容:数据导入,要求将CSV格式或者EXCEL格式的文件导入到HIVE数据仓库中: ①hive建表:test1 create table test1 (InvoiceNo String, StockCode String, Description String, Quantity String, InvoiceDate String, UnitPrice String, CustomerID String, Country String) ROW format delimited field…

Hive数据仓库笔记（一）

Hive建表: CREATE TABLE records (year STRING,temperature INT, quality INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 每行三列数据通过tab分隔,数据如果是以tab分隔的可被hive直接识别. 查看表结构信息: desc records; 加载数据: LOAD DATA LOCAL INPATH'/home/data/sample.txt' OVERWRITE INTO TA…

Hive数据仓库之快速入门

Hive定位:ETL(数据仓库)工具将数据从来源端经过抽取(extract).转换(transform).加载(load)至目的端的工具,如像:kettle 有关Hive数据导入导出mysql的问题请查看<如何利用sqoop将hive数据导入导出数据到mysql> DML 批量插入/批量导入LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partco…

Hadoop学习笔记：安装配置Hive

1. 在官网http://hive.apache.org/下载所需要版本的Hive,以下我们就以hive 2.1.0版为例. 2. 将下载好的压缩包放到指定文件夹解压,tar -zxvf apache-hive-2.1.0-bin.tar.gz. 3. 将Hive安装路径添加到/etc/profile中,之后用source命令使其生效. 4. 执行初始化命令:schematool -dbType derby -initSchema 查看初始化后的信息: schematool -dbType de…

Hive数据仓库

Hive 是一个基于Hadoop分布式文件系统(HDFS)之上的数据仓库架构,同时依赖于MapReduce.适用于大数据集的批处理,而不适用于低延迟快速查询. Hive将用户的HiveQL语句转换为MapReduce作业提交到Hadoop集群上,监控执行过程,最后返回结果给用户.由于Hive的元数据(Hive仓库本身的数据信息)需要不断更新.修改.读取,而由于Hadoop存在较高的延时以及作业调度的开销,因此将Hive元数据存在关系型数据库Mysql.derby中.…

hive记录-cdh配置hive和sentry

1.cdh添加组件-sentry-选择主机-配置数据库 2.配置数据库 1)mysql -uroot -p 2) create database sentry DEFAULT CHARSET utf8 COLLATE utf8_general_ci; 3) grant all privileges on sentry.* to root@'%' identified by '123' with grant option; 4)flush privileges; 5)exit; 选择mysql数据…

Hadoop 管理工具HUE配置-Hive配置

1 前言首先要配置好Hive,可以参见:http://www.cnblogs.com/liuchangchun/p/4761730.html 2 hive配置找到beeswax标签,不叫hive,配置如下属性,其中端口号要和hive-site.xml中的保持一致 hive-site.xml中配置thrift端口号 <property> <name>hive.server2.thrift.port</name> <value>19999</value…

CentOS配置Hive

hive搭建共分为三种模式:1.embedded,2.local,3.remote server 在这里,主要是配置第3种模式:remote server模式,如下图所示: 我的环境共三台虚拟机:Host0,Host2,Host3 在remote server模式中,Host0:Hive-server2 Host2:Hive-metastore Host3:MySQL server 1.分别在Host0,Host2和Host3中安装hive-server2,hive-metastore,mysq…