Hive 使用总结 - 相关文章

初识Hadoop、Hive

2016.10.13 20:28 很久没有写随笔了,自打小宝出生后就没有写过新的文章.数次来到博客园,想开始新的学习历程,总是被各种琐事中断.一方面确实是最近的项目工作比较忙,各个集群频繁地上线加多版本的提测,每次到了晚上就感觉很疲惫,另一方面确实是自己对自己最近有些放松,没有持续地学习.很庆幸今天能在一个忙碌的工作日后,开始着手这篇文章. 来到大数据前,我对大数据可以说是一无所知.诸如Hadoop.Hive等名词仅仅处于"听过"的阶段,完全不知道其作用.大数据的概念真的很多,想真正理…

Hive安装配置指北（含Hive Metastore详解）

个人主页: http://www.linbingdong.com 本文介绍Hive安装配置的整个过程,包括MySQL.Hive及Metastore的安装配置,并分析了Metastore三种配置方式的区别.网上有很多介绍Hive Metastore三种配置方式的文章,但是理解都不对,给读者造成了很多误导.本人详细阅读Apache和CDH官方文档中关于Hive Metastore的部分,并经过实践,终于填好各种坑,安装配置成功,遂记录下本文,供大家参考. 1. 相关概念 Hive Metastore…

Hive on Spark安装配置详解（都是坑啊）

个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/p/a7f75b868568 简介本文主要记录如何安装配置Hive on Spark,在执行以下步骤之前,请先确保已经安装Hadoop集群,Hive,MySQL,JDK,Scala,具体安装步骤不再赘述. 背景 Hive默认使用MapReduce作为执行引擎,即Hive on mr.实际上,Hive还可以使用Tez和Spark作为其执行引擎,分别为Hive on Tez和Hi…

HIVE教程

完整PDF下载:<HIVE简明教程> 前言 Hive是对于数据仓库进行管理和分析的工具.但是不要被“数据仓库”这个词所吓倒,数据仓库是很复杂的东西,但是如果你会SQL,就会发现Hive是那么的简单,简单到甚至不用学就可以使用Hive做出业务需求所需要的东西. 但是Hive和SQL毕竟不同,执行原理.优化方法,底层架构都完全不相同. 大数据离线分析使用Hive已经成为主流,但是目前市面上Hive相关的中文书籍只有一本<Hive编程指南>,对于不懂技术的数据分析人员来说,这本书有些繁琐…

基于Ubuntu Hadoop的群集搭建Hive

Hive是Hadoop生态中的一个重要组成部分,主要用于数据仓库.前面的文章中我们已经搭建好了Hadoop的群集,下面我们在这个群集上再搭建Hive的群集. 1.安装MySQL 1.1安装MySQL Server 在Ubuntu下面安装MySQL的Server很简单,只需要运行: sudo apt-get install mysql-server 系统会把MySQL下载并安装好.这里我们可以把MySQL安装在master机器上. 安装后需要配置用户名密码和远程访问. 1.2配置用户名密码首先我…

hive

Hive Documentation https://cwiki.apache.org/confluence/display/Hive/Home 2016-12-22 14:52:41 ANTLR (ANother Tool for Language Recognition) http://www.antlr.org/ 2016-12-15 22:59:16 UDF <LanguageManual UDF>:https://cwiki.apache.org/confluence/displ…

深入浅出数据仓库中SQL性能优化之Hive篇

转自:http://www.csdn.net/article/2015-01-13/2823530 一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优化,下文会分别阐述. 在开始之前,先把MR的流程图帖出来(摘自Hadoop权威指南),方便后面对照.另…

Hive读取外表数据时跳过文件行首和行尾

作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息,这里可以用属性设置来实现,快速mark下,建表的时候设置如下 ", "skip.footer.line."); 对,就是上面sql中tblproperties的2个属性 "skip.heaer.line.count" 跳过文件行首多少行 &q…

Hive索引功能测试

作者:Syn良子出处:http://www.cnblogs.com/cssdongl 转载请注明出处从Hive的官方wiki来看,Hive0.7以后增加了一个对表建立index的功能,想试下性能是否有很大提升,参考了一些资料亲手实现了一遍,记录下过程和心得一.测试数据准备 1.新建一个gen-data.sh脚本,内容如下 #! /bin/bash #generating .7G raw data. i= ] do echo "$i A decade ago, many were predi…

轻量级OLAP（二）：Hive + Elasticsearch

1. 引言在做OLAP数据分析时,常常会遇到过滤分析需求,比如:除去只有性别.常驻地标签的用户,计算广告媒体上的覆盖UV.OLAP解决方案Kylin不支持复杂数据类型(array.struct.map),要求数据输入Schema必须是平铺的,但是平铺后丢失了用户的聚合标签信息,而没有办法判断某一个用户是否只有性别.常驻地标签.显然,我们需要一种支持复杂数据类型的OLAP数据库:底层为Lucene的Elasticsearch正在向OLAP融合,腾讯内部已经用基于Lucene的分析数据库Herme…

Hive技术架构

一.Hive概念 Facebook为了解决海量日志数据的分析而开发了Hive,Hive是一种用SQL语句来读写.管理存储在分布式存储设备上的大数据集的数据仓库框架. 1. 数据是存储在HDFS上的,Hive本身并不提供数据的存储功能. 2. Hive是用类似SQL的方式来读写.管理数据的,但是底层最终是将语句转换为一个个的MapReduce Job来执行的. 3. Hive是将数据映射成数据库和一张张的表,库和表的元数据信息一般存在关系型数据库上(比如MySQL).元数据信息包括: Owner…

Hive安装部署

目录一. 安装Hive. 1 1. 选择CDH版本的... 1 2. 解压文件... 1 二. 配置Hive. 1 1. 配置环境变量... 1 2. 复制配置文件... 1 3. 修改hive-env.sh. 1 4. 修改hive-site.xml 1 三. 安装MySQL数据库... 1 1. 更新yum mysql版本... 1 2. yum 安装m…

Hive学习笔记（一）

摘要: Hive 是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 QL,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作.1. HIVE结构 Hive 是建…

hive 调优总结

一.join优化做join之前对数据进行预处理,减少参加join的数据量,把数据量少的表放入内存中,制作map端的join 应该将条目少的表/子查询放在 Join 操作符的左边.原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生内存溢出错误的几率. Join查找操作中如果存在多个join,且所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中. SELECT…

初识hive

由facebook 开源用以帮用户解决海量数据etl,构建于hadoop的数据仓库. 使用hql作为查询接口使用hdfs作为底层存储使用mr作为执行层 1.为什么使用hive? 1)在大数据的挑战下,传统的数据库不堪负重 2)使用mr编程繁琐 3)人员成本考虑 2.hive和hbase的区别 hive是基于hadoop的数据仓库工具,是为简化mr编程而生的 hive非常适合数据仓库的统计分析 HBASE 是一个分布式的开源的数据库,为查询而生…

从零自学Hadoop(18)：Hive的CLI和JDBC

阅读目录序 Hive CLI(old CLI) Beeline CLI(new CLI) JDBC Demo下载系列索引本文版权归mephisto和博客园共有,欢迎转载,但须保留此段声明,并给出原文链接,谢谢合作. 文章是哥(mephisto)写的,SourceLink 序上一篇,我们对hive的数据导出,以及集群Hive数据的迁移进行描述.了解到了基本的hive导出操作.这里,我们将对hive的CLI及JDBC这些实用性很强的两个方便进行简要的介绍. 下面我们开始介绍hive的CL…

Hive安装（二）之表不见了

重启一下电脑,发现表不见了,原来我用的derby存储hive的meta,网上找了一下资料,说是要用mysql, 于是安装mysql sudo apt-get install mysql-server 首先用root登陆给root用户赋予权限 $mysql -u root -p hive mysql> GRANT ALL PRIVILEGES ON *.* TO root@localhost IDENTIFIED BY "root"; 拷贝mysql-connector-j…

Hive安装（一）之环境配置

Hive Web Interface(HWI)简介:Hive自带了一个Web-GUI,功能不多,可用于效果展示,如果没有安装Hue的话,是个不错的选择. 由于hive-bin包中没有包含HWI的页面,只有Java代码编译好的jar包:hive-hwi-1.0.1.jar 因此需要下载源码从中提取jsp文件并打包成war文件到hive-lib目录中: cd apache-hive-1.0.1-src/hwi jar cfM hive-hwi-1.0.1.war -C web . 最后将hive-h…

Hive : UDFArgumentTypeException Exactly one argument is expected.

Hive执行时Failed.. 分段执行发现排除一些聚合函数或者内置函数后可以正常执行.. 因为Hive-Sql语句比较长..有很多的case when then 排除后发现是聚合函数的用法问题.. 竟然sb似的只写了个 sum() 里边没写.字段名..日.. 低级失误害死人.. 如果你也报这个错..请仔细检查一下语句把..…

Hive metastore三种配置方式

http://blog.csdn.net/reesun/article/details/8556078 Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储.远端存储比较适合生产环境.Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore. 一.本地derby 这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 <?xml version="1.0"?> <?xml-stylesheet t…

hive 复杂类型

hive提供一种复合类型的数据 struct:可以使用"."来存取数据 map:可以使用键值对来存取数据 array:array中存取的数据为相同类型,其中的数据可以通过下表获取数据创建 struct类型 create table student_struct(id INT, info struct<name:STRING, age:INT>) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' //指定表在加载数据时候的列分割…

Hive的三种安装方式（内嵌模式，本地模式远程模式）

一.安装模式介绍: Hive官网上介绍了Hive的3种安装方式,分别对应不同的应用场景. 1.内嵌模式(元数据保村在内嵌的derby种,允许一个会话链接,尝试多个会话链接时会报错) 2.本地模式(本地安装mysql 替代derby存储元数据) 3.远程模式(远程安装mysql 替代derby存储元数据) 二.安装环境以及前提说明: 首先,Hive是依赖于hadoop系统的,因此在运行Hive之前需要保证已经搭建好hadoop集群环境. 本文中使用的…

安装Hive(独立模式使用mysql连接)

安装Hive(独立模式使用mysql连接) 1.默认安装了java+hadoop 2.下载对应hadoop版本的安装包 3.解压安装包 tar zxvf apache-hive-1.2.1-bin.tar.gz 4.安装mysql yum -y install mysql-server mysql mysqldev //需要以root身份运行另外可能需要配置yum源 mysql常用命令: service mysqld start/stop chkconfig mysqld on //加入开机…

hive学习笔记

html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,big,cite,code,del,dfn,em,img,ins,kbd,q,s,samp,small,strike,strong,sub,sup,tt,var,b,u,i,center,dl,dt,dd,ol,ul,li,fieldset,form,label,legend,table,caption…

hive 创建三种文件类型的表

--TextFile set hive.exec.compress.output=true; set mapred.output.compress=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; INSERT OVERWRITE table hzr…

Hive 笔记

DESCRIBE EXTENDED mydb.employees DESCRIBE EXTENDED mydb.employees DESCRIBE EXTENDED mydb.employees hive> SHOW PARTITIONS employees; SHOW PARTITIONS command Hive : select from group by : group by 对聚合操作之外的字段使用. 先是 from group by 执行后, 才执行select操作. Hiv…

Hive文件存储格式

hive文件存储格式 1.textfile textfile为默认格式存储方式:行存储磁盘开销大数据解析开销大压缩的text文件 hive无法进行合并和拆分 2.sequencefile 二进制文件,以<key,value>的形式序列化到文件中存储方式:行存储可分割压缩一般选择block压缩, 优势是文件和Hadoop api中的mapfile是相互兼容的. 3.rcfile 存储方式:数据按行分块每块按照列存储压缩快快速列存取读记录尽量涉及到的block最少…

Hive函数大全

一.关系运算: 1. 等值比较: = 语法:A=B 操作类型:所有基本类型描述: 如果表达式A与表达式B相等,则为TRUE:否则为FALSE 举例: hive> select 1 from lxw_dual where 1=1; 1 2. 不等值比较: <> 语法: A <> B 操作类型: 所有基本类型描述: 如果表达式A为NULL,或者表达式B为NULL,返回NULL:如果表达式A与表达式B不相等,则为TRUE:否则为FALSE 举例: hive> select…

Hadoop学习笔记—17.Hive框架学习

一.Hive:一个牛逼的数据仓库 1.1 神马是Hive? Hive 是建立在 Hadoop 基础上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的机制.Hive 定义了简单的类 SQL 查询语言,称为 QL ,它允许熟悉 SQL 的用户查询数据.同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reduce…

[Hadoop大数据]——Hive初识

Hive出现的背景 Hadoop提供了大数据的通用解决方案,比如存储提供了Hdfs,计算提供了MapReduce思想.但是想要写出MapReduce算法还是比较繁琐的,对于开发者来说,需要了解底层的hadoop api.如果不是开发者想要使用mapreduce就会很困难.... 另一方面,大部分的开发者都有使用SQL的经验.SQL成为开发者必备的技能... 那么可以不可以使用SQL来完成MapReduce的过程呢?-- 答案就是,Hive Hive能够解决的问题 Hive可以帮助开发者从现有的数…

【Hive 使用总结】的更多相关文章