hive自定义函数——hive streaming

Hadoop Streaming提供了一个便于进行MapReduce编程的工具包，使用它可以基于一些可执行命令、脚本语言或其他编程语言来实现Mapper和 Reducer，Streaming方式是基于Unix系统的标准输入输出来进行MapReduce Job的运行。

任何支持标准输入输出特性的编程语言都可以使用Streaming方式来实现MapReduce Job，基本原理就是输入从Unix系统标准输入，输出使用Unix系统的标准输出。

Streaming的实现需要TRANSFORM()函数和USING关键字，TRANSFORM()的参数是表的列名，USING关键字用于指定脚本

注意：

先将脚本add file 进来

比如WordCount功能：

1、使用Python实现Mapper，代码文件为word_count_mapper.py，代码如下所示：

1    #!/usr/bin/env python

2

3    import sys

4

5    for line in sys.stdin:

6        line = line.strip()

7        words = filter(lambda word: word, line.split())

8        for word in words:

9            print '%s\t%s' % (word, 1)

2、使用Python实现Reducer，代码文件为word_count_reducer.py，代码如下所示：

    #!/usr/bin/env python

    import sys

    from operator import itemgetter

    wc_dict = {}

    for line in sys.stdin:

        line = line.strip()

        word, count = line.split()

        try:

            count = int(count)

            wc_dict[word] = wc_dict.get(word, 0) + count

        except ValueError:

            pass

    sorted_dict = sorted(wc_dict.items(), key=itemgetter(0))

    for word, count in sorted_dict:

        print '%s\t%s' % (word, count)

3、输出统计：

add file /home/hadoop/test928/wc_map.py /home/hadoop/test928/wc_reduce.py;

select transform(wc.word,wc.count) using 'python wc_reduce.py' as word ,count from (select transform(line) using 'python wc_map.py' as word, count from docs) wc;

（转）hive streaming 使用的时候的一些心得

hive streaming 报错的解决方案：
1、把使用到hive streaming 的sql 分解，例如：select transform a,b,c,d using 'python cc.py' as (e,f) from table,分解成：select a,b,c,d from table ，然后执行：　　hive -e "select a,b,c,d from table" | python cc.py,这样如果是语法有问题的话就会检查出来。
2、查看是否是编码问题：如果你的sql中要使用：using “cc.py” 那么如果python脚本有编码问题的话，就会无法执行并报错。监测是否有问题的方法是：chmod 777 cc.py，然后用./cc.py执行脚本，如果报错，那么sql中肯定也报错，解决方法就是用 using “python cc.py”
3、如果你的集群配置了日志收集，那么查看问题就方便多了，直接去执行sql的hdfs 上面的application目录下面查看就可以。
4、在python 脚本中加上 import traceback ；　except Exception,e:　print traceback.format_exc()

hive自定义函数——hive streaming的更多相关文章

Hive自定义函数的学习笔记(1)
前言: hive本身提供了丰富的函数集, 有普通函数(求平方sqrt), 聚合函数(求和sum), 以及表生成函数(explode, json_tuple)等等. 但不是所有的业务需求都能涉及和覆盖到 ...
hive -- 自定义函数和Transform
hive -- 自定义函数和Transform UDF操作单行数据, UDAF:聚合函数,接受多行数据,并产生一个输出数据行 UDTF:操作单个数据使用udf方法: 第一种: add jar xxx ...
hive自定义函数（UDF）
首先什么是UDF,UDF的全称为user-defined function,用户定义函数,为什么有它的存在呢?有的时候你要写的查询无法轻松地使用Hive提供的内置函数来表示,通过写UDF,Hive就 ...
hive自定义函数学习
1介绍 Hive自定义函数包括三种UDF.UDAF.UDTF UDF(User-Defined-Function) 一进一出 UDAF(User- Defined Aggregation Funcat ...
hive自定义函数UDF UDTF UDAF
Hive 自定义函数 UDF UDTF UDAF 1.UDF:用户定义(普通)函数,只对单行数值产生作用: UDF只能实现一进一出的操作. 定义udf 计算两个数最小值 public class Mi ...
Hive 自定义函数（转）
Hive是一种构建在Hadoop上的数据仓库,Hive把SQL查询转换为一系列在Hadoop集群中运行的MapReduce作业,是MapReduce更高层次的抽象,不用编写具体的MapReduce方法 ...
Hive 自定义函数
hive 支持自定义UDF,UDTF,UDAF函数以自定义UDF为例: 使用一个名为evaluate的方法 package com.hive.custom; import org.apache.ha ...
Hive 自定义函数 UDF UDAF UDTF
1.UDF:用户定义(普通)函数,只对单行数值产生作用: 继承UDF类,添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ ...
Hive自定义函数UDF和UDTF
UDF(user defined functions) 用于处理单行数据,并生成单个数据行. PS: l 一个普通UDF必须继承自“org.apache.hadoop.hive.ql.exec.UDF ...

随机推荐

JQuery 学习总结及实例 !! （转载）
出自 new:http://www.jianshu.com/users/1967b163cb61/latest_articles 1.JQuery简介普通JavaScript的缺点:每种控件的操作方 ...
使用命令导入、导出mysql数据
1.导出全部数据库利用mysqldump的—all-databases参数可以一口气把你数据库root用户下的所有数据库一口气导出到一个sql文件里.然后,重装系统后使用source命令可以再一口气 ...
CToolBarCtrl基本内容控件
基本内容CToolBarCtrl CObject └CCmdTarget └CWnd └CToolBarCtrl CToolBarCtrl类提供了Windows工具条通用控件的性能.这个控件(也就是C ...
HDU 2079 选课时间（普通型数量有限母函数）
传送门: http://acm.hdu.edu.cn/showproblem.php?pid=2079 选课时间(题目已修改,注意读题) Time Limit:1000MS Memory Li ...
jdk8新特性之双冒号 :: 用法及详解
jdk8的新特性有很多,最亮眼的当属函数式编程的语法糖,本文主要讲解下双冒号::的用法. 概念类名::方法名,相当于对这个方法闭包的引用,类似js中的一个function.比如: Function& ...
快速排序_c++
快速排序_c++ GitHub 文解快速排序正如其名,是一种排序速度较快的排序算法. 其核心思想: 取数组的第一个数,确定其在整个数组中的位置. 以刚刚的数值所确定的位置经数组分为两个部分. 再分别 ...
微信小程序新版用户授权方式处理
最新更新(2018-12-27): 最近做了改版,做成默认进来就是首页,然后去判断有没有用户信息,没有的话再去判断用没授权过,如果授权过直接自动去获取,没有的话再跳转到授权页面.因为用户授权主要就是针 ...
chromium之compiler_specific
直接上代码,将一些编译警告定义成宏 #if defined(COMPILER_MSVC) // Macros for suppressing and disabling warnings on MSV ...
创建在类路径资源[applicationcontext]中定义名为“工厂”的bean时出错。:在设置bean属性“dataSource”时，无法解析对bean“dataSource”的引用;嵌套异常是org.springframe .beans.factory。BeanCreationException:创建名为“数据源”的bean时出错，该名称是在类路径资源[applicationcontext
控制台报错: 创建在类路径资源[applicationcontext]中定义名为“工厂”的bean时出错.:在设置bean属性“dataSource”时,无法解析对bean“dataSource”的引 ...
32位ubuntu16.04桌面版系统安装
1.下载并安装UltraISO软件安装之后插入U盘 2.然后打开软件点击文件打开找到下载的Ubuntu的ISO文件双击打开完成ISO文件的加载 3.点击启动选项(记得点开加载后的镜像,使之展开如图) ...

hive自定义函数——hive streaming

hive自定义函数——hive streaming的更多相关文章

随机推荐

热门专题