HIVE教程

完整PDF下载:<HIVE简明教程> 前言 Hive是对于数据仓库进行管理和分析的工具.但是不要被“数据仓库”这个词所吓倒,数据仓库是很复杂的东西,但是如果你会SQL,就会发现Hive是那么的简单,简单到甚至不用学就可以使用Hive做出业务需求所需要的东西. 但是Hive和SQL毕竟不同,执行原理.优化方法,底层架构都完全不相同. 大数据离线分析使用Hive已经成为主流,但是目前市面上Hive相关的中文书籍只有一本<Hive编程指南>,对于不懂技术的数据分析人员来说,这本书有些繁琐…

Hive 教程(二)-认知hive

在大数据领域,hive 的位置非常重要,排名前三的大数据工具为 spark.hive.kafka 什么是hive 在大数据领域有 3 种需求场景:传输.存储.计算: hive 是一个处理海量的结构化数据的计算引擎: hive 是基于 hadoop 的一个数据仓库工具,他将结构化的数据数据文件映射为一张表,并且提供了类 sql 的查询功能: hive 提供的 sql 叫 HQL,本质是把 HQL 转换成 mapreduce: 认识 hive 需要搞清楚以下几点: 1. hive 虽然是大数据工具,…

Hive教程(1)

1. 介绍 Apache Hive可以使用SQL来读,写,管理分布式存储的大数据集,结构可以投射到已经存储的数据上,命令行工具和JDBC驱动可以让用户连接到Hive. 2. 安装和配置你可以下载Hive的稳定版本或者下载源码,自己编译Hive 必要: Java1.7(Hive 1.2需要java1.7,Hive 0.14到1.1版本可以与java1.6工作,强烈建议用户用java1.8) 最好使用Hadoop2.0.hadoop1.x并不会Hive2.0.0以后的版本从稳定的版本安装Hive…

Hive 教程(十)-UDF

hive 虽然自带了很多函数,但是毕竟有限,无法满足所有业务场景,用户可以自定义函数来实现特定功能 UDF user define function,用户自定义函数可以分为 3 类 UDF:一进一出 UDAF:聚集函数,多进一出,user define aggregation function UDTF:炸裂函数,一进多出 UDF 可以用多种语言实现,如 java.python.hive 准备工作建表 create external table person( name string, id…

Hive 教程(九)-python with hive

本文介绍用 python 远程连接 hive,此时需要 hive 启动 hiveserver2 服务 windows 下报如下错误 thrift.transport.TTransport.TTransportException: Could not start SASL: Error in sasl_client_start (-4) SASL(-4): no mechanism available: Unable to find a callback: 2 不好玩,还是 linux 吧安装依…

Hive 教程(八)-hiveserver2

hive 的另外一种启动方式是 hiveserver2,它是提供了一种服务,使得我们可以远程操作 hive,就像操作 mysql 一样 hiveserver1 既然有 hiveserver2,肯定有 hiveserver1,不过已经被淘汰,不多做解释,hiveserver1 的缺点是不支持并发,hiveserver2 支持 How to Configure Configuration Properties in the hive-site.xml File hive.server2.thrift…

Hive 教程(七)-DML基础

DML,Hive Data Manipulation Language,数据操作语言: 通俗理解就是数据库里与数据的操作,如增删改查,统计汇总等: Loading files into tables 把文件数据写入 table,load 操作不对数据做任何转换 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)] LOA…

Hive 教程(六)-Hive Cli

hive 有两种启动方式,一种是 bin/hive,一种是 hiveserver2, bin/hive 是 hive 的 shell 模式,所有任务在 shell 中完成,shell 就相当于 hive cli hive 命令行参数 [root@hadoop10 hive2.3.6]# hive --heip -d,--define <key=value> Variable substitution to apply to Hive commands. e.g. -d A=B or --def…

Hive 教程(五)-参数配置

配置基本操作 hive> set; 查看所有配置hive> set key: 查看某个配置hive> set key value: 设置某个配置我们可以看到一些 hadoop 的配置,因为 hive 也读入了 hadoop 的配置三种参数配置方式 1. 配置文件默认配置文件:hive-default.xml 自定义配置文件:hive-site.xml 自定义配置文件会覆盖默认配置文件 2. 命令行参数加上 -hiveconf key=value 仅对本次启动有效 3. 启动后通…

Hive 教程(四)-分区表与分桶表

在 hive 中分区表是很常用的,分桶表可能没那么常用,本文主讲分区表. 概念分区表在 hive 中,表是可以分区的,hive 表的每个区其实是对应 hdfs 上的一个文件夹: 可以通过多层文件夹的方式创建多层分区: 通过文件夹把数据分开分桶表分桶表中的每个桶对应 hdfs 上的一个文件: 通过文件把数据分开在查询时可以通过 where 指定分区(分桶),提高查询效率分区表基本操作 1. 创建分区表 partitoned by 指定分区,后面加分区字段和分区字段类型,可以加多个…

Hive 教程(三)-DDL基础

DDL,Hive Data Definition Language,数据定义语言: 通俗理解就是数据库与库表相关的操作,本文总结一下基本方法 hive 数据仓库配置 hive 数据仓库默认位置在 hdfs 上的 /user/hive/warehouse 路径下: hive 有个默认的数据库叫 default: 但是在 /user/hive/warehouse 路径下没有创建 default 文件夹,default 下的表是直接在 /user/hive/warehouse 路径下创建文件夹在…

Hive 教程(一)-安装与配置解析

安装就安装 ,不扯其他的 hive 依赖在 hive 安装前必须具备如下条件 1. 一个可连接的关系型数据库,如 Mysql,postgresql 等,用于存储元数据 2. hadoop,并启动 hdfs 3. HBase,非必须,但是如果不装,会有警告,不过不影响使用 4. java,1.8 以上版本准备工作 1. 下载安装包 https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 清华镜像,下载速度快 http://apache.org/dis…

Hive 体系学习

Hive简介 Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并使用HQL作为查询接口.HDFS作为存储底层.MapReduce作为执行层,将HQL语句转换成MapReduce任务进行运行,从而达到数据统计.数据分析的功能. Hive有自身的元数据结构描述,可以使用MySQL等关系型数据库来进行存储,但请注意Hive中的所有数据都存储在HDFS中. 优点:与传统的SQL语法非常相近,学习成本低,可以通过HQL语法(类SQL语法)快速实现简单的MapRedu…

SQL开发测试使用基础

目录一.客户端配置与使用 1.oracle(PLSQL Developer) 2.hive(hive cli)及命令 3.postgre(pgAdmin) 二.注意事项及基础 1.索引使用 2.dblink 3.Driving Table(驱动表) 4.查看解释计划 5.正则表达式三.基础概念及函数 1.字符处理 2.数字处理 3.日期处理 4.case表达式 5.null值 6.In与Exists…

大数据工具篇之Hive与MySQL整合完整教程

大数据工具篇之Hive与MySQL整合完整教程一.引言 Hive元数据存储可以放到RDBMS数据库中,本文以Hive与MySQL数据库的整合为目标,详细说明Hive与MySQL的整合方法. 二.安装驱动 MySQL最新的Java驱动版本为:mysql-connector-java-5.1.28-bin.jar,下载后拷贝到:Hive/Lib目录. 三.安装MySQL 3.1 版本 RHEL5+mysql-5.5.35-1.i386.rpm 3.2 顺序 MySQL-shared-compat-…

大数据工具篇之Hive与HBase整合完整教程

大数据工具篇之Hive与HBase整合完整教程一.引言最近的一次培训,用户特意提到Hadoop环境下HDFS中存储的文件如何才能导入到HBase,关于这部分基于HBase Java API的写入方式,之前曾经有过技术文章共享,本文就不再说明.本文基于Hive执行HDFS批量向HBase导入数据,讲解Hive与HBase的整合问题.这方面的文章已经很多,但是由于版本差异,可操作性不大,本文采用的版本均基于以下版本说明中的版本. 二.版本说明序号软件版本 1 Hive 0.10.0 2…

Hive入门教程

Hive 安装相比起很多教程先介绍概念,我喜欢先动手装上,然后用例子来介绍概念.我们先来安装一下Hive 先确认是否已经安装了对应的yum源,如果没有照这个教程里面写的安装cdh的yum源http://blog.csdn.net/nsrainbow/article/details/36629339 Hive是什么 Hive 提供了一个让大家可以使用sql去查询数据的途径.但是最好不要拿Hive进行实时的查询.因为Hive的实现原理是把sql语句转化为多个Map Reduce任务所以Hive非常…

mysql 和 hive 和分布式zookeeper和HBASE分布式安装教程

一,mysql 安装mysql5.7完整教程1. yum -y install mysql-server直接执行语句后等待就好已安装: mysql-community-server.x86_64 0:5.7.23-1.el7 作为依赖被安装: mysql-community-client.x86_64 0:5.7.23-1.el7 mysql-community-common.x86_64 0:5.7.23-1.el7 mysql-community-libs.x86_64 0:5.7.23-1…

Hive/hbase/sqoop的基本使用教程~

Hive/hbase/sqoop的基本使用教程~ ###Hbase基本命令start-hbase.sh #启动hbasehbase shell #进入hbase编辑命令 list #列出当前所有的表(tablename)create 'test','name' #创建一张名为test的表,并且表中只有一列 nameput 'test','row1','name:zhangsan','zs' #往test表中插入数据,行标识为row1p…

Hive/Hbase/Sqoop的安装教程

Hive/Hbase/Sqoop的安装教程 HIVE INSTALL 1.下载安装包:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/hive-2.3.3/2.上传到Linux指定目录,解压: mkdir hive mv apache-hive-2.3.3-bin.tar.gz hive tar -zxvf apache-hive-2.3.3-bin.tar.gz mv apache-hive-2.3.3-bin apache-hive-2.3.…

hive udf编程教程

hive udf编程教程 https://blog.csdn.net/u010376788/article/details/50532166…

[Hadoop大数据]——Hive部署入门教程

Hive是为了解决hadoop中mapreduce编写困难,提供给熟悉sql的人使用的.只要你对SQL有一定的了解,就能通过Hive写出mapreduce的程序,而不需要去学习hadoop中的api. 在部署前需要确认安装jdk以及Hadoop 如果需要安装jdk以及hadoop可以参考我之前的博客: Linux下安装jdk Linux下安装hadoop伪分布式在安装之前,先了解下Hive都有哪些东西. 下载并解压缩去主页选择镜像地址: http://www.apache.org/dyn/c…

apache-hadoop-1.2.1、hbase、hive、mahout、nutch、solr安装教程

1 软件环境: VMware8.0 Ubuntu-12.10-desktop-i386 jdk-7u40-linux-i586.tar.gz hadoop-1.2.1.tar.gz eclipse-dsl-juno-SR1-linux-gtk.tar.gz hadoop-eclipse-plugin-1.2.1.jar apache-maven-2.2.1-bin.tar.gz hbase-0.94.11.tar.gz hive-0.10.0.tar.gz mahout-distribution…

hive 安装教程

1. 下载hadoop-1.2.1-bin.tar.gz 解压,修改名称为hive mv 到 /opt/hive 2.配置hive cp hive-default.xml.template hive-site.xml 修改hive-site.xml cp hive-log4j.properties.template hive-log4j.properties 修改hive-env.sh,配置环境变量 3.安装mysql sudo yum install mysql-server 修改root 密…

hive安装教程本地模式

1.安装模式介绍: Hive官网上介绍了Hive的3种安装方式,分别对应不同的应用场景. a.内嵌模式(元数据保村在内嵌的derby种,允许一个会话链接,尝试多个会话链接时会报错) b.本地模式(本地安装mysql 替代derby存储元数据) c.远程模式(远程安装mysql 替代derby存储元数据) 2.安装准备: 前提:已经安装java JDK1.7以上,hadoop可用,mysql可用. 下载: http://mirror.bit.edu.cn/apache/hive/hive-1.2.…

HIVE 2.1.0 安装教程。（数据源mysql）

前期工作安装JDK 安装Hadoop 安装MySQL 安装Hive 下载Hive安装包可以从 Apache 其中一个镜像站点中下载最新稳定版的 Hive, apache-hive-2.1.0-bin.tar.gz. 解压安装Hive 使用以下命令安装 Hive: sudo mv apache-hive-2.1.0-bin.tar.gz /opt cd /opt sudo tar -xzvf apache-hive-2.1.0-bin.tar.gz ##解压 sudo ln -s apache…

教程 | 使用Sqoop从MySQL导入数据到Hive和HBase

基础环境 sqoop:sqoop-1.4.5+cdh5.3.6+78, hive:hive-0.13.1+cdh5.3.6+397, hbase:hbase-0.98.6+cdh5.3.6+115 Sqool和Hive.HBase简介 Sqoop Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的开源工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中. Hiv…

【HIVE】hive的安装与使用教程

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. Hive是建立在 Hadoop 上的数据仓库基础构架.它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储.查询和分析存储在 Hadoop 中的大规模数据的…

mac安装Hadoop，mysql，hive,sqoop教程

在安装Hadoop,mysql,hive之前,首先要保证电脑上安装了jdk 一.配置jdk 1. 下载jdk http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 2. 配置环境变量 (1)在终端使用 sudo su 命令进入root用户模式: (2)使用 vim /etc/profile 命令打开profile文件,按下大写“I”进入编辑模式,在文件中添加以下信息: JAVA_HO…

基于伪分布式Hadoop搭建Hive平台详细教程

一.搭建环境的前提条件环境:Linux系统 Hadoop-2.6.0 MySQL 5.6 apache-hive-2.3.7 这里的环境不一定需要和我一样,基本版本差不多都ok的,所需安装包和压缩包自行下载即可.但是注意hive和hadoop都是2.x系列版本的. 这里提供一个我下载的hive版本的链接,读者有需要可以自取:http://mirror.bit.edu.cn/apache/hive/hive-2.3.7/ 这里需要提前搭建好hadoop环境和MySQL环境,具体可以看我的博客链接…

【HIVE教程】的更多相关文章