《hadoop权威指南》关于hive的第一个小例子的演示

本文是《hadoop权威指南》关于hive的小例子，通过这个例子可以很好地看出来hive是个什么东西。

前提是已经配置好hive的远程连接版本的环境，我是用了MYSQL数据库保存元数据。

环境要求：

-配置好了Hadoop的HDFS文件系统，启动hdfs和yarn

-配置好了hive的远程连接模式

-配置好了MySQL用于metadata的储存

输入文件下载： https://github.com/tomwhite/hadoop-book/blob/master/input/ncdc/micro-tab/sample.txt

第一步，创建一个表格records，表格名字和数据源的字段，年份，温度和quality 。

Logging initialized using configuration in file:/usr/local/hive/conf/hive-log4j.properties

hive> Create table records(year String,temperature INT,quality INT)

    > ROW FORMAT DELIMITED

    > FIELDS TERMINATED BY '\t'

    > ;

OK

第二部，把保存在linux上的数据上传到刚才创建的表格中。

注意：数据是没有固定格式的，因为目前input是用分隔符“\t”分割的。所以上一步中使用了（FIELDS TERMINATED BY '\t'）来

HIVE没有专门数据格式，用户只要创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据

hive> LOAD DATA LOCAL INPATH 'sample.txt'

    > OVERWRITE INTO TABLE records;

Loading data to table default.records

Table default.records stats: [numFiles=1, numRows=0, totalSize=51, rawDataSize=0]

OK

Time taken: 6.03 seconds

执行HiveQL语句，从刚才数据中抽取每年的温度最高值

整个过程和MapReduce一致，一共耗费30秒。

hive> SELECT year,MAX(temperature)

    >  FROM records

    > WHERE temperature !=999 AND quality IN (0,1,4,5,9)

    > GROUP BY year;

Query ID = root_20171107090403_c61a6f9a-05d4-4d0f-a97b-d37fb83ef65d

Total jobs = 1

Launching Job 1 out of 1

Number of reduce tasks not specified. Estimated from input data size: 1

In order to change the average load for a reducer (in bytes):

  set hive.exec.reducers.bytes.per.reducer=<number>

In order to limit the maximum number of reducers:

  set hive.exec.reducers.max=<number>

In order to set a constant number of reducers:

  set mapreduce.job.reduces=<number>

Starting Job = job_1510015112691_0001, Tracking URL = http://server71:8088/proxy/application_1510015112691_0001/

Kill Command = /usr/local/hadoop/bin/hadoop job  -kill job_1510015112691_0001

Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1

2017-11-07 09:05:58,529 Stage-1 map = 0%,  reduce = 0%

2017-11-07 09:06:59,061 Stage-1 map = 0%,  reduce = 0%

2017-11-07 09:07:11,068 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 16.88 sec

2017-11-07 09:07:53,824 Stage-1 map = 100%,  reduce = 67%, Cumulative CPU 20.75 sec

2017-11-07 09:08:03,489 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 28.83 sec

MapReduce Total cumulative CPU time: 28 seconds 830 msec

Ended Job = job_1510015112691_0001

MapReduce Jobs Launched:

Stage-Stage-1: Map: 1  Reduce: 1   Cumulative CPU: 28.83 sec   HDFS Read: 8355 HDFS Write: 17 SUCCESS

Total MapReduce CPU Time Spent: 28 seconds 830 msec

OK

1949    111

1950    22

Time taken: 243.092 seconds, Fetched: 2 row(s)

我们可以看到整个过程和查询结果1949年和1950年的最高温度。

《hadoop权威指南》关于hive的第一个小例子的演示的更多相关文章

基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化
文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理关键词:<Hadoop权威指南> ...
Hadoop权威指南:通过FileSystem API读取数据
Hadoop权威指南:通过FileSystem API读取数据 [TOC] 在Hadoop中,FileSystem是一个通用的文件系统API 获取FileSystem实例的几个静态方法 public ...
Hadoop权威指南:HDFS-Hadoop存档
Hadoop权威指南:HDFS-Hadoop存档 [TOC] 每个文件按块方式存储, 每个块的元数据存储在namenode的内存中 Hadoop存档文件或HAR文件是一个更高效的文件存档工具,它将文件 ...
hadoop权威指南学习(一) - 天气预报MapReduce程序的开发和部署
看过Tom White写的Hadoop权威指南(大象书)的朋友一定得从第一个天气预报的Map Reduce程序所吸引, 殊不知,Tom White大牛虽然在书中写了程序和讲解了原理,但是他以为你们都会 ...
Hadoop权威指南学习笔记一
Hadoop简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出.一起学习一起进步. 转载请注明:http://blog.csdn.net/ ...
《Hadoop权威指南》读书笔记1
<Hadoop权威指南>读书笔记 Day1 第一章 1.MapReduce适合一次写入.多次读取数据的应用,关系型数据库则更适合持续更新的数据集. 2.MapReduce是一种线性的可伸缩 ...
《javascript权威指南》读书笔记——第一篇
<javascript权威指南>读书笔记——第一篇金刚 javascript js javascript权威指南由于最近想系统学习下javascript,所以开始在kindle上看这本 ...
Hadoop权威指南(中文版，第2版)【分享】
下载地址 Hadoop权威指南(中文版,第2版) http://download.csdn.net/download/u011000529/5726789 (友情提示:请点击右下的 “联通下载” 或者 ...
Hadoop权威指南学习笔记二
MapReduce简单介绍声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习參考,有什么不到之处还望指出,一起学习一起进步. 转载请注明:http://blog.csdn.n ...

随机推荐

网络：W5500抓包TCP segment of a reassembled PDU
1.问题描述 W5500 http测试,用wireshark抓包,发现出现很多TCP segment of a reassembled PD. 2. 问题分析 TCP segment of a rea ...
Redis之数据存储结构
今天去中关村软件园面试,被问到:你做项目用到的Redis处理数据用的什么结构?顿时石化,”用到的结构,不就是key-value嘛,还有什么结构?“.面试官说:“平时除了工作,要加强学习,下面的面试我觉 ...
OC_内存管理（二）对象复制、循环引用问题、自动释放池
循环调用: 1.循环引用的问题两个对象A.B,有可能会出现特殊情况:A中包含B的实例变量:B中也包含A的实例变量,如果这两个实例变量都是强引用(A有着B的实例变量所有权,B也有A的实例变量所有权 ...
为多个文件夹下的C源代码编写Makefile文件
上一篇文章写了如何为在同一个文件夹下的C源代码,本篇文章为多个文件夹下的C源代码编写Makefile文件. 建立两个文件夹,分别为abs与src.其最终目录结构如下: 1 $ ls * 2 jun.c ...
JAVA基础补漏---数组
int[] a = new int[5]; int[] b = new int{1,2,3}; int[] c = {4,5,6}; 以上几种定义都可以. a叫动态初始化. b叫静态初始化. c叫静态 ...
【P2361】yyy棋（博弈论+贪心+模拟）
这个题看上去本来不好处理,然而善意的题面已经基本告诉你做法了,小时候玩的那个游戏就是代码的核心.动动脑子想想,如果长和宽的积是奇数,那么一定要先手,如果是偶数,那么后手就会获胜. 好了,那么怎么处理对 ...
动态规划之最短路径（Floyd算法）
package main import ( "fmt" ) func floyd(m [][]int) { length := len(m[]) var min, i, j int ...
javascript语言历史
起初,web站点事实上只不过是一个静态的HTML文档集,这些文档之间仅依靠一些简单的超链接(Hyperlinks)绑定在一起. 但很快,随着Web业务的快速普及和增长,网站管理者越来越希望自己所创建的 ...
Bellman-Ford算法 O(NE)
Bellman-Ford算法 O(NE) 思路:枚举n-1次所有边,通过枚举所有边,将所有和已知点相连的点都设为已知,初始时起点为已知点. ;i<=n-;i++){ //n-1是次数,枚举n-1 ...
StratifiedShuffleSplit 交叉验证
python中数据集划分函数StratifiedShuffleSplit的使用文章开始先讲下交叉验证,这个概念同样适用于这个划分函数 1.交叉验证(Cross-validation) 交叉验证是指在 ...