Hadoop Streaming开发要点

一.shell脚本中的相关配置

 HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

 STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

 INPUT_FILE_PATH="/input.txt"

 OUTPUT_PATH="/output"

 $HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

 $HADOOP_CMD jar $STREAM_JAR_PATH

   　　　　-input  $INPUT_FILE_PATH  \

   　　　　-output  $OUTPUT_PATH  \

   　　　　-mapper  "python map.py"  \

   　　　　-reducer  "python red.py"  \

   　　　　-file  map.py  \

   　　　　-file  red.py  \

   　　　　-jobfonf  mapred.job.name="xxx"

-input : 指定作业的输入文件的HDFS路径, 支持使用*通配符, 支持指定多个文件或目录, 可多次使用

-output : 指定作业的输出文件的HDFS路径, 输出目录不能存在, 执行作业的用户必须有创建该目录的权限, 只能使用一次

-mapper : 自己写的map程序

-reducer : 自己写的reduce程序

-file : 分发文件到计算节点中, 包括map和reduce的执行文件, 以及map和reduce要用的输入文件, 如配置文件. 类似的配置还有-cacheFile,-cacheArchive分别用于向计算节点分发HDFS文件和HDFS压缩文件.(注意: 当输入文件比较大的时候需要先放到HDFS中, 不能用-file分发方式)

-jobconf : 提交作业的一些配置属性.

　　常见配置:

　　(1)mapred.map.tasks : map task数目

　　(2)mapred.reduce.tasks : reduce task数目

　　(3)stream.num.map.output.key.fileds : 指定map task输出记录中key所占的域数目(也就是用几个字段做为key)

　　(4)num.key.fields.for.partition : 指定对key分出来的前几个部分做partition而不是整个key, 以下三个配置通常是搭配使用.

　　其它配置:

　　mapred.job.name 　　　　　　　作业名

　　mapred.job.priority 　　　　　　　　作业优先级

　　mapred.job.map.capacity 　　　　　　　最多同时运行map任务数

　　mapred.job.reduce.capacity 　　　　　　最多同时运行reduce任务数

　　mapred.task.timeout 　　　　　　任务没有响应(输入输出)的最大时间

　　mapred.compress.map.output 　　　　 map的输出是否压缩

　　mapred.map.output.compression.codec map的输出压缩方式

　　mapred.out.compress reduce的输出是否压缩

　　mapred.output.compression.codec 　 reduce的输出压缩方式

　　stream.map.output.field.separator　　　 map输出分隔符

二.关于文件分发与打包

(1)如果文件(如字典文件)存放在HDFS中, 希望计算时在每个计算节点上将文件当做本地文件处理, 可以使用以下配置在计算节点缓存文件, Streaming程序通过./linkname访问文件.

-cacheFile "hdfs://host:port/path/to/file#linkname"          #此处linkname相当于别名

举个栗子:

 HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

 STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

 INPUT_FILE_PATH="/The_Man_of_Property.txt"

 OUTPUT_PATH="/output_cachefile_broadcast"

 #$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

 # Step 1.

 $HADOOP_CMD jar $STREAM_JAR_PATH \

     -input $INPUT_FILE_PATH \

     -output $OUTPUT_PATH \

     -mapper "python map.py mapper_func WH" \

     -reducer "python red.py reduer_func" \

     -jobconf "mapred.reduce.tasks=2" \

     -jobconf  "mapred.job.name=cachefile_demo" \

     -cacheFile "hdfs://master:9000/cachefile_dir/white_list.txt#WH" \

     -file "./map.py" \

     -file "./red.py"

(2)如果要分发的文件有目录结构, 可以先将整个目录打包, 然后上传到HDFS, 再用-cacheArchive来分发压缩包, 栗子如下:

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/The_Man_of_Property.txt"

OUTPUT_PATH="/output_cachearchive_broadcast"

$HADOOP_CMD fs -rmr -skipTrash $OUTPUT_PATH

# Step 1.

$HADOOP_CMD jar $STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func WH" \

    -reducer "python red.py reduer_func" \

    -jobconf "mapred.reduce.tasks=2" \

    -jobconf  "mapred.job.name=cacheArchive_demo" \

    -cacheArchive "hdfs://master:9000/w.tar.gz#WH" \

    -file "./map.py" \

    -file "./red.py"

关于linux文件压缩和解压命令见如下链接:

http://www.cnblogs.com/CoolJayson/p/7469620.html

Hadoop Streaming开发要点的更多相关文章

Hadoop Streaming框架使用（一）
Streaming简介 link:http://www.cnblogs.com/luchen927/archive/2012/01/16/2323448.html Streaming框架允许任何程 ...
Hadoop应用开发实战(flume应用开发、搜索引擎算法、Pipes、集群、PageRank算法)
Hadoop是2013年最热门的技术之一,通过北风网robby老师<深入浅出Hadoop实战开发>.<Hadoop应用开发实战>两套课程的学习,普通Java开发人员可以在最快的 ...
升级版:深入浅出Hadoop实战开发(云存储、MapReduce、HBase实战微博、Hive应用、Storm应用)
Hadoop是一个分布式系统基础架构,由Apache基金会开发.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力高速运算和存储.Hadoop实现了一个分布式文件系 ...
Hadoop Streaming框架学习（一）
Hadoop Streaming框架学习(一) Hadoop Streaming框架学习(一) 2013-08-19 12:32 by ATP_, 473 阅读, 3 评论, 收藏, 编辑 1.Had ...
hadoop应用开发技术详解
<大数据技术丛书:Hadoop应用开发技术详解>共12章.第1-2章详细地介绍了Hadoop的生态系统.关键技术以及安装和配置:第3章是 MapReduce的使用入门,让读者了解整个开发 ...
用python + hadoop streaming 编写分布式程序（一） -- 原理介绍，样例程序与本地调试
相关随笔: Hadoop-1.0.4集群搭建笔记用python + hadoop streaming 编写分布式程序(二) -- 在集群上运行与监控用python + hadoop streami ...
《Hadoop应用开发技术详解》
<Hadoop应用开发技术详解> 基本信息作者: 刘刚丛书名: 大数据技术丛书出版社:机械工业出版社 ISBN:9787111452447 上架时间:2014-1-10 出版日期:2 ...
hadoop streaming 文档
Hadoop Streaming框架使用(一) Streaming简介 Streaming框架允许任何程序语言实现的程序在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植.因 ...
基于Eclipse的Hadoop应用开发环境配置
基于Eclipse的Hadoop应用开发环境配置我的开发环境: 操作系统ubuntu11.10 单机模式 Hadoop版本:hadoop-0.20.1 Eclipse版本:eclipse-java- ...

随机推荐

Luogu P2743 [USACO5.1]乐曲主题Musical Themes
链接 \(Click\) \(Here\) 人生第一道后缀数组的题目.首先要对输入的串进行差分处理,差分后长度为(\(n - 1\))的相同子段就是原串中长度为\(n\)的相同(可变调)子段.求出来\ ...
Linux设备树(一概述)
一概述设备树(Device tree)是一套用来描述硬件属相的规则.ARM Linux采用设备树机制源于2011年3月份Linux创始人Linus Torvalds发的一封邮件,在这封邮件中他提倡 ...
ubuntu下cmake编译opencv 3.4.3源码；
在进行编译前,准备工作: 1) 到opencv官网下载源码(https://opencv.org/releases.html): 2) 安装qt(http://download.qt.io/); ...
OS + Linux RedHat 6.3 QA
s 问题1:could not open session 解决办法 https://blog.csdn.net/qq_40809549/article/details/82658720 解决1: 配置 ...
【C#】使用bat文件安装卸载Window服务
1.安装服务 @echo off @title 安装windows服务path %SystemRoot%\Microsoft.NET\Framework\v4.0.30319echo========= ...
JAVA-集合类型List(ArrayList、LinkedList)常用操作例子（基础必备）
package com.net.xinfang.reflect; import java.util.ArrayList; import java.util.Arrays; import java.ut ...
【转】C语言中的符号优先级
转自: http://blog.csdn.net/huangblog/article/details/8271791 虽然在日常使用中,添加括号来明确规定运算符优先级是一种常识,但毕竟学校考试就喜欢考 ...
tedu训练营day03
Day03笔记1.作业 1.假如你现在25周岁,每年365天,计算你过了多少个星期天(大概数字) 提示 :地板除 2.毕业薪资为10000元,每年涨20%,十年之后你的薪资为多少元? 提示: 幂运算( ...
自学python 2.
1.T or F 1>1 or 3<4 or 4>5 and 2>1 and 9>8 or 7<6 t not 2>1 and 3<4 or 4> ...
27. Spring Boot 缓存注解详解： @Cacheable、@CachePut、 @CacheEvict、@Caching、@CacheConfig
1.使用OGNL的命名规则来定义Key的值 @Cacheable(cacheNames = {"user"},key = "#root.methodName + '[' ...

Hadoop Streaming开发要点

Hadoop Streaming开发要点的更多相关文章

随机推荐

热门专题