hive 总结二

Mongodb同步数据到hive（二）

Mongodb同步数据到hive(二) 1. 概述上一篇文章主要介绍了mongodb-based,通过直连mongodb的方式进行数据映射来进行数据查询,但是那种方式会对线上的数据库产生影响,所以今天介绍第二种方式—BSON-based,即使用mongoexport将所需要的表导出到本地文件,文件个是默认为bson.然后将导出的bson文件put到HDFS文件系统里面,最后在hive里面创建相应的表来使用hive sql进行查询. 2. 导出bson…

Hive（二）CentOS7.5安装Hive2.3.3

一 Hive的下载软件下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hive/ 这里下载的版本是:apache-hive-2.3.3-bin.tar.gz 官方安装配置文档:https://cwiki.apache.org/confluence/display/Hive/GettingStarted 二 Hive单用户安装远程Metastore数据库 1 解压配置环境变量 #解压指定位置安装 [admin@node21 software…

Hive（二）hive的基本操作

一.DDL操作(定义操作) 1.创建表 (1)建表语法结构 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name[(col_name data_type [COMMENT col_comment], ...)] //字段注释[COMMENT table_comment] //表的注释[PARTITIONED BY (col_name data_t…

本文参考:黑泽君相关博客本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取.补充了部分内容. 查询函数(Hive高级) NVL(cloumn,replace_with) 如果cloumn为NULL,则NVL函数返回 replace_with 的值: 否则返回cloumn的值: 如果两个参数都为NULL,则返回NULL. hive> select nvl(a,1) from (select null as a) as aa; 1 Time taken: 0.147 seconds, Fet…

Hive(十二)【调优】

目录 1.Fetch抓取 2.本地模式 3.表的优化 3.1大小表join 3.2大表Join大表 3.3map join 3.4group By 3.5 count(distinct) 3.6笛卡尔积 3.7行列过滤 3.8 分区.分桶 4.合理设置map和reduce数 4.1输入数据量大增加map数 4.2小文件合并 4.3合理设置reduce数 5.并行执行 6.严格模式 7.JVM重用 8.压缩 9.执行计划(explain) 1.Fetch抓取 Fetch抓取:Hive中对某些情况的…

Apache Hive （二）Hive安装

转自:https://www.cnblogs.com/qingyunzong/p/8708057.html Hive的下载下载地址http://mirrors.hust.edu.cn/apache/ 选择合适的Hive版本进行下载,进到stable-2文件夹可以看到稳定的2.x的版本是2.3.3 Hive的安装 1.使用MySQL做为Hive的元数据库,所以先安装MySQL. MySql安装过程http://www.cnblogs.com/qingyunzong/p/8294876.htm…

hive学习(二) hive操作

hive ddl 操作官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL hive dml 操作官方手册https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DML 1.创建库 create database test; 2.删除库 drop database test; 3.建表完整ddl建表语法规则 CREATE…

Hive扩展功能(二)--HWI接口

软件环境: linux系统: CentOS6.7 Hadoop版本: 2.6.5 zookeeper版本: 3.4.8 主机配置: 一共m1, m2, m3这五部机, 每部主机的用户名都为centos 192.168.179.201: m1 192.168.179.202: m2 192.168.179.203: m3 m1: Zookeeper, Namenode, DataNode, ResourceManager, NodeManager, Master, Worker m2: Zooke…

Hive 教程(二)-认知hive

在大数据领域,hive 的位置非常重要,排名前三的大数据工具为 spark.hive.kafka 什么是hive 在大数据领域有 3 种需求场景:传输.存储.计算: hive 是一个处理海量的结构化数据的计算引擎: hive 是基于 hadoop 的一个数据仓库工具,他将结构化的数据数据文件映射为一张表,并且提供了类 sql 的查询功能: hive 提供的 sql 叫 HQL,本质是把 HQL 转换成 mapreduce: 认识 hive 需要搞清楚以下几点: 1. hive 虽然是大数据工具,…

Hive（二）—— 架构设计

Hive架构 Figure 1 also shows how a typical query flows through the system. 图一显示一个普通的查询是如何流经Hive系统的. The UI calls the execute interface to the Driver (step 1 in Figure 1). 图中的第1步,UI向Driver调用执行接口 The Driver creates a session handle for the query and send…

HIVE教程

完整PDF下载:<HIVE简明教程> 前言 Hive是对于数据仓库进行管理和分析的工具.但是不要被“数据仓库”这个词所吓倒,数据仓库是很复杂的东西,但是如果你会SQL,就会发现Hive是那么的简单,简单到甚至不用学就可以使用Hive做出业务需求所需要的东西. 但是Hive和SQL毕竟不同,执行原理.优化方法,底层架构都完全不相同. 大数据离线分析使用Hive已经成为主流,但是目前市面上Hive相关的中文书籍只有一本<Hive编程指南>,对于不懂技术的数据分析人员来说,这本书有些繁琐…

hive配置以及在启动过程中出现的问题

一.hive配置 1.安装环境在hadoop-1.2.1集群上安装hive-1.2.1 2.将hive-1.2.1环境变量添加到PATH路径下使用如下命令打开配置文件 nano /etc/profile 在打开的配置文件里添加如下代码 export HIVE_HOME=/opt/hive- PATH=$HIVE_HOME/bin:$PATH 3.配置hive-default.xml和hive-site.xml 在/opt/hive-1.2.1/conf目录下没有这两个文件夹,只有一个hive…

Hive学习路线图(转)

Hadoophivehqlroadmap学习路线图 1 Comment Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等. 从2011年开始,…

hive的学习入门（飞进数据仓库的小蜜蜂）

前言 hive是构建在Hadoop上的数据仓库平台,其设计目标是:使Hadoop上的数据操作与传统的SQL结合,让熟悉sql的开发人员能够轻松的像Hadoop平台迁移. Hive是Facebook的信息平台的重要组成部分,Facebook在2008年将其共献给Apache,现在Hive是Hadoop家族中一款数据仓库产品. Hive最大的特点是:提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以也利用Hadoop进行大数据的操作.就是这一个点,解决了原数…

【转】Hive学习路线图

原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/ 感谢! Hive学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch,…

hadoop笔记之Hive入门(Hive的体系结构)

Hive入门(二) Hive入门(二) Hive的体系结构 ○ Hive的元数据 Hive将元数据存储在数据库中(metastore),支持mysql.derby.oracle等数据库,Hive默认是derby数据库 Hive中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等 ○ HQL的执行过程解释器.编译器.优化器完成HQL查询语句从词法分析.语法分析.编译.优化以及查询计划(Plan)的生成.生成的查询计划存储在HDFS中,并在随后有MapRed…

Zeppelin0.5.6使用hive解释器

此zeppelin为官方0.5.6版,可能还在孵化阶段,可能出现一些bug吧. 配置 cp zeppelin-env.sh.template zeppelin-env.sh vi zeppelin-env.sh 添加: export JAVA_HOME=/usr/lib/jvm/java--openjdk-.b17.axs7.ppc64le export HADOOP_CONF_DIR=/etc/hadoop/conf 启动zepplein ../bin/zeppelin-daemon.sh s…

Hbase 与Hive整合

HBase与Hive的对比 25.1.Hive 25.1.1.数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询. 25.1.2.用于数据分析.清洗 Hive适用于离线的数据分析和清洗,延迟较高 25.1.3.基于HDFS.MapReduce Hive存储的数据依旧在DataNode上,编写的HQL语句终将是转换为MapReduce代码执行.(不要钻不需要执行MapReduce代码的情况的牛角尖) 25.2.HBase 25.…

Spark学习之路（二十）SparkSQL的元数据

一.概述 SparkSQL 的元数据的状态有两种: 1.in_memory,用完了元数据也就丢了 2.hive , 通过hive去保存的,也就是说,hive的元数据存在哪儿,它的元数据也就存在哪儿. 换句话说,SparkSQL的数据仓库在建立在Hive之上实现的.我们要用SparkSQL去构建数据仓库的时候,必须依赖于Hive. 二.Spark-SQL脚本如果用户直接运行bin/spark-sql命令.会导致我们的元数据有两种状态: 1.in-memory状态: 如果SPARK-HOME/co…

Hive安装与配置--- 基于MySQL元数据

hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行. 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析. 一.hive安装 1.官网下载地址:http://hive.apache.org/downloads.html 下载后解压到指定目录,例如 /usr/local/hive # tar…

个人集群部署hadoop 2.7 + hive 2.1

环境:centos 6.6 x64 (学习用3节点) 软件:jdk 1.7 + hadoop 2.7.3 + hive 2.1.1 环境准备: 1.安装必要工具 yum -y install openssh wget curl tree screen nano lftp htop mysql-client mysql-server 2.使用163的yum源: cd /etc/yum.repo.d/ wget http://mirrors.163.com/.help/CentOS7-Base-16…

Hive初始

一.Hive概念二.为什么要是用Hive 三.Hive优缺点四.hive架构一.Hive概念 Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的,是建立在Hadoop上的数据仓库基础架构.作为Hadoopd的一个数据仓库的工具,Hive可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,Hive数据仓库软件提供对存储在分布式中的大型数据集的查询和管理,它本身是建立在Apache Hadoop之上,主要提供以下功能: 它提供…

Hive简介及使用

一.Hive简介 1.hive概述 Apache Hive™数据仓库软件有助于使用SQL读取,编写和管理驻留在分布式存储中的大型数据集. 可以将结构投影到已存储的数据中.提供了命令行工具和JDBC驱动程序以将用户连接到Hive. 数据计算:mapreduce分布式计算>难度大 hive>SQL语句 mysql 简化开发减少学习成本 2.优缺点优点: (1)操作接口采用了sql,简化开发,减少学习成本 (2)避免手写mapreduce程序 (3)hive执行延迟较高,适用场景大多用在对实…

Hive、Pig、HBase的关系与区别

欢迎关注大数据和人工智能技术文章发布的微信公众号:清研学堂,在这里你可以学到夜白(作者笔名)精心整理的笔记,让我们每天进步一点点,让优秀成为一种习惯! Pig 一种操作hadoop的轻量级脚本语言,最初又雅虎公司推出,不过现在正在走下坡路了.当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护.不过现在还是有些公司在用,不过我认为与其使用pig不如使用hive.:) Pig是一种数据流语言,用来快速轻松的处理巨大的数据. Pig包含两个部分:Pig Interface,P…

【hive 总结二】的更多相关文章