Hive的Transform功能

Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能，适合实现Hive中没有的功能又不想写UDF的情况。例如，按日期统计每天出现的uid数，通常用如下的SQL

SELECT date, count(uid)

FROM xxx

GROUP BY date

但是，如果我想在reduce阶段对每天的uid形成一个列表，进行排序并输出，这在Hive中没有现成的功能。那么，可以自写脚本实现该功能，并用TRANSFORM关键字调用

SELECT TRANSFORM(date, uid)

FROM xxx

CLUSTER BY date

这是一个类似streaming的功能，但是可以更方便的访问Hive中的数据，也可以把SQL语句和自写脚本整合在一起运行。

简单分析官网上的一个例子

FROM (

    FROM pv_users

    SELECT TRANSFORM(pv_users.userid, pv_users.date)

    USING 'map_script'

    AS dt, uid

    CLUSTER BY dt

) map_output

INSERT OVERWRITE TABLE pv_users_reduced

SELECT TRANSFORM(map_output.dt, map_output.uid)

USING 'reduce_script'

AS date, count;

这段代码的大致工作流程描述如下：

map_script作为mapper，reduce_script作为reducer。将pv_users表中的userid, date两列作为mapper的输入字段，处理后的输出的前两个字段分别命名为dt, uid，并按照dt字段作partition和sort送给reduce阶段处理。reducer的输入字段为dt和uid，输出处理后的前两个字段，并命名为date, count，写入到pv_users_reduced表中。

这里有几个细节：

mapper和reducer用到的script可以是任何可执行文件。注意如果用到的是本地文件，应当在语句开始前用ADD FILE或ADD FILES将文件加入进来
mapper和reducer的输入输出都是以TAB为分隔符
如果USING ‘script’语句后面没有AS，则Hive默认script的输出中第一个TAB之前的字段为key，后面的部分全部为value。若指定了AS，则严格按照AS后面的字段数输出，例如AS dt, uid，则输出前两个字段并忽略后面的字段。此外，AS语句可以指定数据类型，如AS (date STRING, count INT)。默认都是string类型。
CLUSTER BY关键字是DISTRIBUTE BY和SORT BY的简写，这两者可以认为对应与Hadoop的partition和sort过程。如果partition和sort的key是不同的，可以使用DISTRIBUTE BY和SORT BY分别指定。

MAP和REDUCE关键字是SELECT TRANSFORM关键字的别名，原文中给出了上面等价代码

FROM (

    FROM pv_users

    MAP pv_users.userid, pv_users.date

    USING 'map_script'

    AS dt, uid

    CLUSTER BY dt

) map_output

INSERT OVERWRITE TABLE pv_users_reduced

REDUCE map_output.dt, map_output.uid

USING 'reduce_script'

AS date, count;

因此，原文中特别提醒，MAP并没有强制产生一个map过程的作用，REDUCE同理。只是为了阅读更清晰。

Hive的Transform功能的更多相关文章

HIVE的transform函数的使用
Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况.例如,按日期统计每天出现的uid数,通常用如下的SQL SELECT date, ...
[HIve - LanguageManual] Transform [没懂]
Transform/Map-Reduce Syntax SQL Standard Based Authorization Disallows TRANSFORM TRANSFORM Examples ...
使用pyspark模仿sqoop从oracle导数据到hive的主要功能（自动建表，分区导入，增量，解决数据换行符问题）
最近公司开始做大数据项目,让我使用sqoop(1.6.4版本)导数据进行数据分析计算,然而当我们将所有的工作流都放到azkaban上时整个流程跑完需要花费13分钟,而其中导数据(增量)就占了4分钟左右 ...
在CSS3中，可以利用transform功能来实现文字或图像的旋转、缩放、倾斜、移动这四种类型的变形处理
CSS3中的变形处理(transform)属 transform的功能分类 1.旋转 transform:rotate(45deg); 该语句使div元素顺时针旋转45度.deg是CSS 3的“Val ...
Hive使用简介
---恢复内容开始--- 指定分隔符 HIVE输出到文件的分隔符 ,列与列之间是'\1'(ASCII码1,在vim里显示为^A),列内部随着层数增加,分隔符依次为'\2','\3','\4'等. 例: ...
hive -- 自定义函数和Transform
hive -- 自定义函数和Transform UDF操作单行数据, UDAF:聚合函数,接受多行数据,并产生一个输出数据行 UDTF:操作单个数据使用udf方法: 第一种: add jar xxx ...
Hive学习笔记——HQL用法及UDF,Transform
Hive中没有定义专门的数据格式,数据格式可以由用户指定,用户定义数据格式需要指定三个属性:列分隔符(通常为空格.”\t”.”\x001″).行分隔符 (”\n”)以及读取文件数据的方法(Hive 中 ...
hive学习笔记
html,body,div,span,applet,object,iframe,h1,h2,h3,h4,h5,h6,p,blockquote,pre,a,abbr,acronym,address,bi ...
【原】hive 操作笔记
1.建表: hive> CREATE TABLE pokes (foo INT, bar STRING); hive> CREATE TABLE invites (foo INT, bar ...

随机推荐

FLASH CC 2015 CANVAS （七）总结
FLASH CC 2015 CANVAS (一至七)确切来说是自己在摸索学习过程中而写.所以定为“开荒教程”. 去年年底转战H5,半年中一直非常忙也不敢用CC来做项目,担心有BUG或者无法实现需求,所 ...
linux设备驱动编写_tasklet机制（转）
在编写设备驱动时, tasklet 机制是一种比较常见的机制,通常用于减少中断处理的时间,将本应该是在中断服务程序中完成的任务转化成软中断完成. 为了最大程度的避免中断处理时间过长而导致中断丢失,有时 ...
poj1244Slots of Fun
链接几何的简单题,建立坐标,判断相等以及不共线 #include <iostream> #include<cstdio> #include<cstring> #i ...
JavaWeb 5 Tomcat
5 Tomcat 1 Web开发入门 1.1 引入之前的程序: java桌面程序,控制台控制,socket gui界面.javase规范 ...
【服务器环境搭建-Centos】tmpfs，【转载】
转载来源:http://www.linuxidc.com/Linux/2013-12/93747.htm tmpfs介绍 tmpfs是一种虚拟内存文件系统,而不是块设备.是基于内存的文件系统,创建时不 ...
Winform_ComBox三种赋值方式
第一种方法: DataTable dt = new DataTable(); dt.Columns.Add( "name" ); dt.Columns.Add( "val ...
R语言实战
教材目录第一部分入门第一章 R语言介绍第二章创建数据集第三章图形初阶第四章基本数据管理第五章高级数据管理第二部分基本方法第六章基本图形第七章基本统计方法第三部分中 ...
dede顶级栏目直接显示内容
点击网站栏目管理,增加顶级栏目在弹出的增加窗口中,填上栏目名称,其它的如果没有特殊的要求可直接默认点击常规选项旁边的高级选项,并且在列表模板中,将其改一个文件名,这个文件名就是后面需要使用到的文件 ...
jmeter 监听的介绍
一个侦听器是一个组件,显示的结果样本. 结果可以显示在一个树,表格,图表或简单地写入到日志中文件. 查看的内容反应任何给定的采样器,添加的监听器” 视图结果树 ”或“ 视图的结果表一个测试计划 ...
如何使用Retrofit获取服务器返回来的JSON字符串
有关Retrofit的简单集成攻略,大家可以参考我此前的一篇文章有关更多API文档的查阅请大家到Retrofit官网查看. 在大家使用网络请求的时候,往往会出现一种情况:需要在拿到服务器返回来的JSO ...

Hive的Transform功能

Hive的Transform功能的更多相关文章

随机推荐

热门专题