在Hive中使用Avro

作者:过往记忆 | 新浪微博：左手牵右手TEL |
可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明
博客地址：http://www.iteblog.com/
文章标题：《在Hive中使用Avro》
本文链接：http://www.iteblog.com/archives/1007
Hadoop、Hive、Hbase、Flume等QQ交流群：138615359（已满），请加入新群：149892483

本博客的微信公共帐号为：iteblog_hadoop，欢迎大家关注。
如果你觉得本文对你有帮助，不妨分享一次，你的每次支持，都是对我最大的鼓励

如果本文的内容对您的学习和工作有所帮助，不妨支付宝赞助(wyphao.2007@163.com)一下

　　Avro（读音类似于[ævrə]）是Hadoop的一个子项目，由Hadoop的创始人Doug Cutting牵头开发。Avro是一个数据序列化系统，设计用于支持大批量数据交换的应用。它的主要特点有：支持二进制序列化方式，可以便捷，快速地处理大量数据；动态语言友好，Avro提供的机制使动态语言可以方便地处理Avro数据。
　　在Hive中，我们可以将数据使用Avro格式存储，本文以avro-1.7.1.jar为例，进行说明。

　　如果需要在Hive中使用Avro，需要在$HIVE_HOME/lib目录下放入以下四个工具包：avro-1.7.1.jar、avro-tools-1.7.4.jar、 jackson-core-asl-1.8.8.jar、jackson-mapper-asl-1.8.8.jar。当然，你也可以把这几个包存在别的路径下面，但是你需要把这四个包放在CLASSPATH中。

　　为了解析Avro格式的数据，我们可以在Hive建表的时候用下面语句：

`01`	`hive> CREATE EXTERNAL TABLE tweets`

`02`	`> COMMENT "A table backed by Avro data with the`

`03`	`> Avro schema embedded in the CREATE TABLE statement"`

`04`	`> ROW FORMAT SERDE` `'org.apache.hadoop.hive.serde2.avro.AvroSerDe'`

`05`	`> STORED AS`

`06`	`> INPUTFORMAT` `'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'`

`07`	`> OUTPUTFORMAT` `'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'`

`08`	`> LOCATION` `'/user/wyp/examples/input/'`

`09`	`> TBLPROPERTIES (`

`10`	`>` `'avro.schema.literal'='{`

`11`	`>` `"type":` `"record",`

`12`	`>` `"name":` `"Tweet",`

`13`	`>` `"namespace":` `"com.miguno.avro",`

`14`	`>` `"fields": [`

`15`	`> {` `"name":"username",` `"type":"string"},`

`16`	`> {` `"name":"tweet",` `"type":"string"},`

`17`	`> {` `"name":"timestamp",` `"type":"long"}`

18 > ]

19 > }'

20 > );

21 OK

`22`	`Time taken:` `0.076` `seconds`

23

`24`	`hive> describe tweets;`

25 OK

`26`	`username string from deserializer`

`27`	`tweet string from deserializer`

`28`	`timestamp bigint from deserializer`

然后用Snappy压缩我们需要的数据，下面是压缩前我们的数据：

01 {

`02`	`"username":` `"miguno",`

`03`	`"tweet":` `"Rock: Nerf paper, scissors is fine.",`

`04`	`"timestamp":` `1366150681`

05 },

06 {

`07`	`"username":` `"BlizzardCS",`

`08`	`"tweet":` `"Works as intended. Terran is IMBA.",`

`09`	`"timestamp":` `1366154481`

10 },

11 {

`12`	`"username":` `"DarkTemplar",`

`13`	`"tweet":` `"From the shadows I come!",`

`14`	`"timestamp":` `1366154681`

15 },

16 {

`17`	`"username":` `"VoidRay",`

`18`	`"tweet":` `"Prismatic core online!",`

`19`	`"timestamp":` `1366160000`

20 }

压缩完的数据假如存放在/home/wyp/twitter.avsc文件中，我们将这个数据复制到HDFS中的/user/wyp/examples/input/目录下：

`1`	`hadoop fs -put /home/wyp/twitter.avro /user/wyp/examples/input/`

然后我们就可以在Hive中使用了：

`1`	`hive> select * from tweets limit` `5;;`

2 OK

`3`	`miguno Rock: Nerf paper, scissors is fine.` `1366150681`

`4`	`BlizzardCS Works as intended. Terran is IMBA.` `1366154481`

`5`	`DarkTemplar From the shadows I come!` `1366154681`

`6`	`VoidRay Prismatic core online!` `1366160000`

`7`	`Time taken:` `0.495` `seconds, Fetched:` `4` `row(s)`

当然，我们也可以将avro.schema.literal中的

01 {

`02`	`"type":` `"record",`

`03`	`"name":` `"Tweet",`

`04`	`"namespace":` `"com.miguno.avro",`

`05`	`"fields": [`

06 {

`07`	`"name":` `"username",`

`08`	`"type":` `"string"`

09 },

10 {

`11`	`"name":` `"tweet",`

`12`	`"type":` `"string"`

13 },

14 {

`15`	`"name":` `"timestamp",`

`16`	`"type":` `"long"`

17 }

18 ]

19 }

存放在一个文件中，比如：twitter.avsc,然后上面的建表语句就可以修改为：

`01`	`CREATE EXTERNAL TABLE tweets`

`02`	`COMMENT` `"A table backed by Avro data with the Avro schema stored in HDFS"`

`03`	`ROW FORMAT SERDE` `'org.apache.hadoop.hive.serde2.avro.AvroSerDe'`

`04`	`STORED AS`

`05`	`INPUTFORMAT` `'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'`

`06`	`OUTPUTFORMAT` `'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'`

`07`	`LOCATION` `'/user/wyp/examples/input/'`

`08`	`TBLPROPERTIES (`

`09`	`'avro.schema.url'='hdfs:///user/wyp/examples/schema/twitter.avsc'`

10 );

效果和上面的一样。本博客文章除特别声明，全部都是原创！

尊重原创，转载请注明：转载自过往记忆（http://www.iteblog.com/）
本文链接地址: 《在Hive中使用Avro》（http://www.iteblog.com/archives/1007）

转自http://www.iteblog.com/archives/1007

在Hive中使用Avro的更多相关文章

hive中数据存储格式对比：textfile,parquent,orc,thrift,avro,protubuf
这篇文章我会从业务中关注的: 1. 存储大小 2.查询效率 3.是否支持表结构变更既数据版本变迁 5.能否避免分隔符问题 6.优势和劣势总结几方面完整的介绍下hive中数据以下几种数据格式:text ...
Hive中的HiveServer2、Beeline及数据的压缩和存储
1.使用HiveServer2及Beeline HiveServer2的作用:将hive变成一种server服务对外开放,多个客户端可以连接. 启动namenode.datanode.resource ...
SparkSQL读取Hive中的数据
由于我Spark采用的是Cloudera公司的CDH,并且安装的时候是在线自动安装和部署的集群.最近在学习SparkSQL,看到SparkSQL on HIVE.下面主要是介绍一下如何通过SparkS ...
hive中rcfile格式(收藏文)
首先声明,此文是属于纯粹收藏文,感觉讲的很不错. 本文介绍了Facebook公司数据分析系统中的RCFile存储结构,该结构集行存储和列存储的优点于一身,在MapReduce环境下的大规模数据分析中扮 ...
hive中分析函数window子句
hive中有些分析函数功能确实很强大,在和sum,max等聚合函数结合起来能实现不少功能. 直接上代码演示吧原始数据 channel1 2016-11-10 1 channel1 2016-11-1 ...
hive中的一种假NULL现象
使用hive时,我们偶尔会遇到这样的问题,当你将结果输出到屏幕时,查出的数据往往显示为null,但是当你将结果输出到文本时,却显示为空(即未填充),这是为什么呢? 在hive中有一种假NULL,它看起 ...
hive中导入json格式的数据（hive分区表）
hive中建立外部分区表,外部数据格式是json的如何导入呢? json格式的数据表不必含有分区字段,只需要在hdfs目录结构中体现出分区就可以了 This is all according to t ...
sqoop将关系型数据库的表导入hive中
1.sqoop 将关系型数据库的数据导入hive的参数说明:
hive中order by,sort by, distribute by, cluster by作用以及用法
1. order by Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的 ...

随机推荐

mysql 客户端命令行下直接查询并导出数据
mysql原来还能这么导出数据,涨知识了. 方式1: select ....(sql语句) INTO OUTFILE '/var/lib/mysql/msg_data.csv ' (导出的文件位置 ...
USB 3.0：那些你需要知道的事
在过去14年来,通用串行总线(USB)已成为计算机和外部设备之间的标准接口.不管是移动硬盘.相机.鼠标.键盘.打印机,还是扫描仪,它们和计算机之间的数据传输一般均采用USB线.USB接口也的确是“通用 ...
ovs ovn 学习资料
0.A Primer on OVN http://blog.spinhirne.com/2016/09/a-primer-on-ovn.html 1.Open Virtual Networking W ...
解决跨域HttpResponseJsonCORS, HttpResponseCORS 返回字典数据
#!/usr/bin/python # -*- coding: UTF-8 -*- import json from django.http import HttpResponse def HttpR ...
Django：学习笔记(1)——开发环境配置
Django:学习笔记(1)——开发环境配置 Django的安装与配置安装Django 首先,我们可以执行python -m django --version命令,查看是否已安装django. 如果 ...
springmvc pojo
/** * Spring MVC 会按请求参数名和 POJO 属性名进行自动匹配, 自动为该对象填充属性值.支持级联属性. * 如:dept.deptId.dept.address.tel 等 */ ...
搭建自己的npm仓库
第一步:安装Erlang环境首先,安装必要的库 yum install build-essential yum install libncurses5-dev yum install libssl- ...
flume hdfs配置详解
flume采集中HDFS参数解析就是个备忘录,方便以后直接查阅,不用再网上找了!!!! 配置解析 Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下. ch ...
SweetWeather wpf天气预报源代码
数据来源于中国天气网(www.weather.com.cn)和天气预报网(www.tianqiyubao.com) 主要是对中国天气网和天气预报网接口数据做解析.结合MVVM框架实现. 主界面: ...
C# 异步同步调用
本文将主要通过“同步调用”.“异步调用”.“异步回调”三个示例来讲解在用委托执行同一个“加法类”的时候的的区别和利弊. 首先,通过代码定义一个委托和下面三个示例将要调用的方法: /*添加的命名空间 u ...

在Hive中使用Avro

在Hive中使用Avro的更多相关文章

随机推荐

热门专题