Hive编程(影印版)】的更多相关文章

<Hive编程(影印版)> 基本信息 原书名:Programming Hive 作者: Edward Capriolo Dean Wampler Jason Rutherglen 出版社:东南大学出版社 ISBN:9787564141974 上架时间:2013-6-20 出版日期:2013 年5月 开本:16开 页码:352 版次:1-1 所属分类:计算机 > 数据库 > 数据库存储与管理 更多关于 >>><Hive编程(影印版)> 内容简介 计算机书…
hive编程指南中有个employees表,默认的分隔符比較繁杂,编辑起来不太方便(普通编辑器编辑的控制字符^A等被当成字符串处理了,没有起到分隔符的作用). 收集的解决方式例如以下: http://www.myexception.cn/software-architecture-design/1351552.html http://blog.csdn.net/lichangzai/article/details/18703971 切记,简单的文本编辑器编辑例如以下的内容,分隔符是没被识别的,^…
hive编程入门课程 http://wenku.baidu.com/link?url=BfyZWjz48G_6UJImzWw39OLB0sUrIYEYxoxNpaFbADUQekmOvQy4FPY1fd-YmmvjDITGyEzce9_9fpdrBhZVL3ycId1LKZzAzsSg5bThr9K…
如下,是用maven构建项目,本篇博文重点不是这个.初学者(小白)变成小鸟后,建议开始用maven啦! Eclipse下Maven新建项目.自动打依赖jar包(包含普通项目和Web项目) HBase 开发环境搭建(Eclipse\MyEclipse + Maven) MapReduce 开发环境搭建(Eclipse\MyEclipse + Maven) Hadoop项目开发环境搭建(Eclipse\MyEclipse + Maven) Hive项目开发环境搭建(Eclipse\MyEclipse…
// HiveQLa) 数据定义语言1 数据库表的一个目录或命名空间,如果用户没有指定数据库的话,那么将会使用默认的数据库default-----创建数据库CREATE DATABASE guoyongrong;// 给每个数据库创建了一个目录,数据库的文件目录名是以.db结尾的CREATE DATABASE IF NOT EXISTS guoyongrong; // 避免在数据库存在的创建错误CREATE DATABASE guoyongrong LOCATION '/my/preferred…
set hive.metastore.warehouse.dir=/user/myname/hive/warehouse; 用户设定自己的数据仓库目录.不影响其他用户.也在$HOME/.hiverc中设置,则每次启动hive自动加载 hive -(d,ef,H,h,i,p,S,v) 定义变量var,在hql中直接引用${var} set (显示或修改) set; (看所有变量) set env:HOME; set -V; 不加-V打印命名空间 hive --define foo=bar (-d简…
1. 基础 1.1 Hive 解决问题的背景? 用户如何从一个现有的数据基础架构转移到 Hadoop 上,而这个基础架构是基于传统的关系数据库和 SQL 的? Hive 提供了一个被称为 HQL 的 SQL 语言,来查询存储在 Hadoop 集群中的数据. 1.2 Hive 使用的场合是什么以及它的局限性? Hive 最适合于数据仓库的应用程序,使用该应用程序进行静态数据分析,不需要快速响应给出结果,而且数据本身 不会频繁变化. 局限性 1. Hive 不适合记录级别的更新,插入或者删除操作,用…
1.Hive不支持记录级别的更新.插入或删除? 2.sort by 和 order by 的区别? https://blog.csdn.net/jthink_/article/details/38903775 3.分区和分桶的区别? 分区:是hive中对数据比较粗粒度的划分,每个分区对应一个文件目录:类似与rdbms中分区表的概念.比如大量日志存储,会根据日志产生时间分区,一般分区会造成数据倾斜. 分桶:是比较细粒度的数据划分,对应到具体文件:根据指定列进行hash之后与分桶个数取模计算,确定数…
第四章: HQl的数据定义 1:创建数据库   create database financials;   create database  if not exists financials; 2: 查看数据库   show databases;    模糊查询数据库   show databases like 'h.*' ; 3:创建数据库改动数据库的默认位置    create database financials localtion '/my/preferred/directory' 4…
Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型. 和大多数数据库相比,Hive具有一个独特的功能,那就是其对于数据在文件中的编码方式具有非常大的灵活性. 大多数数据库对数据具有完全的控制,其包括对数据存储到磁盘的过程的控制,也包括对数据生命周期的控制. 而Hive将这些方面的控制权交给用户,使用户更容易地使用各种各样的工具来管理和处理数据. 一.  基本数据类型 表1-1 Hive基本数据类型 数据类型 长度 例子 TINYINT 1byte有…
1.Mapreduce是一种计算模型,将计算任务分割成多个可以在服务器集群中并行执行的任务,然后分散到一群家用的或者服务器级别的硬件机器上,从而降低成本并提供水平可伸缩性. 2.mapreduce的两个基本操作: (1)map操作:将集合中的元素从一种形式转换为另一种形式,输入的键值对会被转换成零到多个键值对进行输出. 3.hive的限制:(1)hive不支持记录几倍的更新.插入或者删除操作.但是用户可以通过查询生成新的表,或者将查询结果导入文件中, (2)hadoop是一个面向批处理的系统,m…
1. 设置hive以本地模式运行(即使当前用户是在分布式模式或伪分布式模式下执行也使用这种模式) set hive.exec.model.local.auto=true; 若想默认使用这个配置,可以将这个命令添加到$HOME/.hiverc文件中 2. 当频繁使用hadoop dfs命令时,最好为这个命令定义一个别名 alias hdfs="hadoop dfs" 3. hive表数据默认存储位置(基于hadoop的运行模式) hadoop为本地模式:file:///user/hive…
完整PDF下载:<HIVE简明教程> 前言 Hive是对于数据仓库进行管理和分析的工具.但是不要被“数据仓库”这个词所吓倒,数据仓库是很复杂的东西,但是如果你会SQL,就会发现Hive是那么的简单,简单到甚至不用学就可以使用Hive做出业务需求所需要的东西. 但是Hive和SQL毕竟不同,执行原理.优化方法,底层架构都完全不相同. 大数据离线分析使用Hive已经成为主流,但是目前市面上Hive相关的中文书籍只有一本<Hive编程指南>,对于不懂技术的数据分析人员来说,这本书有些繁琐…
一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识.那么,一般对陌生事物的认知都会经历下面几个阶段: 为什么会出现?解决了什么问题? 如何搭建?如何使用? 如何精通? 我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料.第三个问题,就得慢慢靠实践和时间积累了. 如果有什么问题,可以直接留言! 为什么出现?解决了什么问题? 背景 说到这个问题,还得先说个小故事,在很久很久以前.... 有一个叫facebook的贼有名的公司,他们内部搭建了数据…
本文前提是Hadoop & Java & mysql 数据库,已经安装配置好,并且 环境变量均已经配置到位   声明:本笔记参照 学习<Hive 编程指南>而来,如果有错误之处还望大家留言指出!望与大家共同进步! 一.Hive 基本介绍     Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作.就是这一个点,解决了原数据分析人员对于大…
Hive的自定义的函数的步骤: 1°.自定义UDF extends org.apache.hadoop.hive.ql.exec.UDF 2°.需要实现evaluate函数,evaluate函数支持重载 3°.把程序打包放到目标机器上去 4°.进入hive客户端,添加jar包:hive>add jar jar路径 5°.创建临时函数:hive> create temporary function 自定义名称 AS '自定义UDF的全类名' 6°.执行HQL语句: 7°.销毁临时函数:hive&…
Hive是什么! 一直想抽个时间整理下最近的所学,断断续续接触hive也有半个多月了,大体上了解了很多Hive相关的知识.那么,一般对陌生事物的认知都会经历下面几个阶段: 为什么会出现?解决了什么问题? 如何搭建?如何使用? 如何精通? 我会在本篇粗略的介绍下前两个问题,然后给一些相关的资料.第三个问题,就得慢慢靠实践和时间积累了. 如果有什么问题,可以直接留言! 为什么出现?解决了什么问题? 背景 说到这个问题,还得先说个小故事,在很久很久以前.... 有一个叫facebook的贼有名的公司,…
(一)简单入门 1.创建一个表 create table if not exists ljh_emp( name string, salary float, gender string) comment 'basic information of a employee' row format delimited fields terminated by ','; 2.准备数据文件 创建test目录且目录只有一个文件,文件内容如下: ljh,25000,male jediael,25000,mal…
Hive分区和传统数据库的分区的异同: 分区技术是处理大型数据集经常用到的方法.在Oracle中,分区表中的每个分区是一个独立的segment段对象,有多少个分区,就存在多少个相应的数据库对象.而在Postgresql中分区表其实相当于分别建立了很多小表,其实和Oracle是异曲同工罢了. 在HIVE中的管理表其实就是在数据库目录下的一个和表名称一样的目录,数据文件都存放在该目录下,如果在Hive中查询一张表数据,那就需要遍历该目录下的所有数据文件,如果表的数据非常庞大,那查询性能会很不好. 管…
非原创,源自:https://www.cnblogs.com/snowbook/p/5723767.html hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念.原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助.此篇内容较多:看完之后需要达到的目标1.hive是什么2.明白hive的原理3.会使用hive4.会使用hive编程1.hive首先我们需要hive是什么?让你真正明白什么是hive上面讲的很明白1.hive是一个数据仓库2.hive基于ha…
1.首先需要安装Hadoop和Hive 安装的时候参考 http://blog.csdn.net/jdplus/article/details/46493553 安装的版本是apache-hive-2.1.1-bin.tar.gz,解压到/usr/local目录下 然后在/etc/profile文件中添加 export HIVE_HOME=/usr/local/hive export PATH=$PATH:$HIVE_HOME/bin 2.修改配置文件 在bin/hive-config.sh文件…
hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念.原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助.此篇内容较多:看完之后需要达到的目标1.hive是什么2.明白hive的原理3.会使用hive4.会使用hive编程 1.hive首先我们需要hive是什么?让你真正明白什么是hive上面讲的很明白1.hive是一个数据仓库2.hive基于hadoop.总结为一句话:hive是基于hadoop的数据仓库.hive明白之后,如同我们明白了关系数据库是什…
本文介绍在Mac上搭建Hive环境. 建议首先配置好Hadoop,搭建与配置可以参考我之前的博文Mac Hadoop的安装与配置. 当然你也可以选择使用Docker搭建环境,本文不作介绍. 安装 对于MacOs,推荐使用HomeBrew安装hive,一步到位. $ brew install hive 创建元数据库 Hive默认用derby作为元数据库.这里我们用mysql来存储元数据,下面作一些初始化 mysql> create database metastore; mysql> creat…
hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念.原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助. 此篇内容较多:看完之后需要达到的目标: 1.hive是什么 2.明白hive的原理 3.会使用hive 4.会使用hive编程 1.hive首先我们需要hive是什么?让你真正明白什么是hive上面讲的很明白 1.hive是一个数据仓库2.hive基于hadoop. 总结为一句话:hive是基于hadoop的数据仓库.hive明白之后,如同我们明白…
Hive内部提供了很多函数给开发者使用,包括数学函数,类型转换函数,条件函数,字符函数,聚合函数,表生成函数等等,这些函数都统称为内置函数. 目录 数学函数 集合函数 类型转换函数 日期函数 条件函数 字符函数 聚合函数 表生成函数 其他函数     数学函数(目录) Return Type Name (Signature) Description DOUBLE round(DOUBLE a) Returns the rounded BIGINT value of a. 返回对a四舍五入的BIG…
hive之于数据民工,就如同锄头之于农民伯伯.hive用的好,才能从地里(数据库)里挖出更多的数据来. 用过hive的朋友,我想或多或少都有类似的经历:一天下来,没跑几次hive,就到下班时间了. hive在极大数据或者数据不平衡等情况下,表现往往一般,因此也出现了presto.spark-sql等替代品.今天不谈其它,就来说说关于hive,个人的一点心得. 一. 表连接优化 1.  将大表放后头 Hive假定查询中最后的一个表是大表.它会将其它表缓存起来,然后扫描最后那个表. 因此通常需要将小…
笔记来源<Hive编程指南> 一.hive命令行界面: ‘一次使用’命令:执行一个或多个(分号分隔)查询后hive CLI立即退出: hive -e "select * from src" 从文件中执行hive查询:hive -f /file/hello.hql. hive shell中可以用SOURCE执行一个脚本文件 hiverc文件:CLI   -i    文件名.这个选项允许用户指定一个文件,CLI启动时,在提示符出现前会先执行这个文件. 执行shell 命令:不用…
不多说,直接上干货,这个问题一直迷惑已久,今天得到亲身醒悟. 所以,建议hadoop-2.6.0.tar.gz的用户与hive-1.0.0搭配使用.当然,也可以去用高版本去覆盖它. log4j:WARN No appenders could be found for logger (org.apache.hive.jdbc.Utils).log4j:WARN Please initialize the log4j system properly.log4j:WARN See http://log…