MR进阶实践1： -file 分发多个文件

【-file 适合场景】分发文件在本地，小文件

-file分发原理

run.sh文件：通过多个-file, 将多个本地文件分发到Hadoop集群中的compute node

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/02_filedistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/02_filedistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job1: use -file to distribute  local file to cluster

# these  files will bestored in the same directory in each datanode

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_funcwhite_list" \

    -reducer "python red.pyreducer_func" \

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

修改reducer个数为三个 (第一种 -jobconf)

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/02_filedistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/02_filedistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job1: use -file todistribute  files

# these  files will be stored in the same directory in each datanode

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_funcwhite_list" \

    -reducer "pythonred.py reducer_func" \

    -jobconf “mapred.reduce.tasks=” \  # deprecated option, not suggested

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

修改reducer为3个（第二种 -D）

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/02_filedistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/02_filedistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job1: use -file todistribute  files

# these  files will bestored in the same directory in each datanode

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -D mapred.reduce.tasks= \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_funcwhite_list" \

    -reducer "pythonred.py reducer_func" \

    -file ./map.py \

    -file ./red.py \

    -file ./white_list

datanode上观察分发的文件

1、作业专属目录

作业开始后，会创建专属目录， taskTracker/root/jobcache/job_xxxxxxxx

2、分发给作业的文件

被放置在同一目录，taskTracker/root/jobcache/job_xxxx/jars

3、每一个正在运行的mapper, reducer构建attempt目录

每一个运行的mapper, reducer会构建一个attempt目录，taskTracer/root/jobcache/job_xxx/attempt_yyyyy/work , 生成符号链接文件，指向jars中的具体文件

MR进阶实践2： -cacheFile 将放在HFDS上的文件分发给计算节点

1、将mapreduce程序运行时需要的某一个辅助文件提前上传到HDFS

例如：将实践1中的white_list上传到HDFS，本地文件在上传后直接删除

# hadoop fs -put ./white_list /

# rm -rf ./white_list

2、修改run.sh, 设置-cacheFile

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/03_cachefiledistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/03_cachefiledistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job2: use -cacheFileto distribute HDFS file to compute node

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func WH" \

    #这里也一定要用WH符号链接，因为作业开始运行后创建的attemps目录中只能看到WH，和map.py符号链接位于同一目录

    -reducer "pythonred.py reducer_func" \

    -cacheFile “hdfs://master:9000/white_list#WH”

    #WH一定要，每个attemp中要生成该符号链接,指向Tasktracer/distcache中的whitelist

    -file ./map.py \

    -file ./red.py

3、运行run.sh，提交任务，观察数据节点上的文件分发

运行结束后, jobcache下的所有内容，以及distcache下的所有内容，将全部清空

MR进阶实践3： -cacheArchive 将位于HFDS上的压缩文件分发给计算节点

【使用场景】

假定有多个white_list文件，如果一个个通过-file方式上传就不太合理，可以将多个white_list文件，打包压缩为1个tar.gz文件，上传到HDFS，然后通过-cacheArchive方式，将HDFS压缩将件分发给各个compute node. 同时框架会自动将分发到各个compute node上的压缩文件进行解压

1、将本地多个white_list文件，打包为一个压缩文件w.tar.gz

目录结构：map.py, red.py, white_list_dir

|_white_list_1

|_white_list_2

注意：gzip打包后的文件，上传到HDFS，通过-cacheArchive分发到计算节点后，会自动解压为同名文件夹

打包完成后的目录结构为：map.py, red.py, white_list_dir

|_white_list_1

|_white_list_2

|_w.tar.gz

2、打包后的压缩文件上传到HDFS

# hadoop fs –put ./w.tar.gz  /

# hadoop fs –ls /

查看是否已经上传成功

3、修改run.sh，-cacheArchive选项

HADOOP_CMD="/usr/local/src/hadoop-1.2.1/bin/hadoop"

STREAM_JAR_PATH="/usr/local/src/hadoop-1.2.1/contrib/streaming/hadoop-streaming-1.2.1.jar"

INPUT_FILE_PATH="/03_cachefiledistribute_input/The_Man_of_Property.txt"

OUTPUT_PATH="/03_cachefiledistribute_output"

$HADOOP_CMD fs -rmr-skipTrash $OUTPUT_PATH

# job3: use -cacheArchive to distribute HDFS compressed file to compute node

$HADOOP_CMD jar$STREAM_JAR_PATH \

    -input $INPUT_FILE_PATH \

    -output $OUTPUT_PATH \

    -mapper "python map.py mapper_func WLDIR" \

    #这里也一定要用WH.gz符号链接名，因为attemps中只能看到WH.gz

    -reducer "pythonred.py reducer_func" \

    -cacheArchive “hdfs://master:9000/w.tar.gz#WLDIR”

    #WLDIR一定要，每个attemp中要生成该符号链接,指向Tasktracer/distcache中已经自动解压的文件夹，文件夹中有white_list_1,white_list_2

    -file ./map.py \

    -file ./red.py

3、重大变动：修改map.py程序

-mapper "python map.py mapper_func WLDIR" \

可以看出map.py开始运行时，传入参数只能是WLDIR，表示压缩的HDFS文件分发到compute node后自动解压得到的目录

因此map.py要修改程序为遍历WLDIR字符串代表的目录，找到每个文件，然后再对每个文件做处理

4、运行run.sh，提交任务，观察数据节点上的文件分发

运行结束后, jobcache下的所有内容，以及distcache下的所有内容，将全部清空

MapReduce-实践1的更多相关文章

大数据系列之分布式计算批处理引擎MapReduce实践-排序
清明刚过,该来学习点新的知识点了. 上次说到关于MapReduce对于文本中词频的统计使用WordCount.如果还有同学不熟悉的可以参考博文大数据系列之分布式计算批处理引擎MapReduce实践. ...
大数据系列之分布式计算批处理引擎MapReduce实践
关于MR的工作原理不做过多叙述,本文将对MapReduce的实例WordCount(单词计数程序)做实践,从而理解MapReduce的工作机制. WordCount: 1.应用场景,在大量文件中存储了 ...
大数据系列之数据仓库Hive命令使用及JDBC连接
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用 ...
Hadoop MapReduce开发最佳实践（上篇）
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
MapReduce 原理与 Python 实践
MapReduce 原理与 Python 实践 1. MapReduce 原理以下是个人在MongoDB和Redis实际应用中总结的Map-Reduce的理解 Hadoop 的 MapReduce ...
【原创 Hadoop&Spark 动手实践 3】Hadoop2.7.3 MapReduce理论与动手实践
开始聊MapReduce,MapReduce是Hadoop的计算框架,我学Hadoop是从Hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密.这个可能 ...
Hadoop化繁为简(三)—探索Mapreduce简要原理与实践
目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapreduce.演示Mapreduce例子程序 ...
[转] Hadoop MapReduce开发最佳实践（上篇）
前言本文是Hadoop最佳实践系列第二篇,上一篇为<Hadoop管理员的十个最佳实践>. MapRuduce开发对于大多数程序员都会觉得略显复杂,运行一个WordCount(Hadoop ...
Mapreduce简要原理与实践
探索Mapreduce简要原理与实践目录-探索mapreduce 1.Mapreduce的模型简介与特性?Yarn的作用? 2.mapreduce的工作原理是怎样的? 3.配置Yarn与Mapred ...

随机推荐

201521123109《java程序设计》第九周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常相关内容. 2. 书面作业本次PTA作业题集异常 1. 常用异常题目5-1 1.1 截图你的提交结果(出现学号) 1.2 自 ...
201521123108 《Java程序设计》第13周学习总结
1. 本周学习总结 2. 书面作业 Q1. 网络基础 1.1 比较ping www.baidu.com与ping cec.jmu.edu.cn,分析返回结果有何不同?为什么会有这样的不同? 答: 回复 ...
读Zepto源码之Selector模块
Selector 模块是对 Zepto 选择器的扩展,使得 Zepto 选择器也可以支持部分 CSS3 选择器和 eq 等 Zepto 定义的选择器. 在阅读本篇文章之前,最好先阅读<读Zept ...
TCP/IP协议：OSI七层模型、TCP/IP四层模型的对比
1. OSI七层和TCP/IP四层的关系 1.1 OSI引入了服务.接口.协议.分层的概念,TCP/IP借鉴了OSI的这些概念建立TCP/IP模型. 1.2 OSI先有模型,后有协议,先有标准,后进行 ...
sqlserver2012 密码过期问题
昨天登录系统突然连不上数据库了看了看报错内容提示是sqlserver的用户密码过期,那么就简单记录下操作,方便孩子后解决 (1)首先打开sql Management Studio 2012 顺便提一下 ...
openGPS.cn - 高精度IP定位原理，定位误差说明
[ip定位历史] 关于IP定位,最早是通过运营商实现,每个运营商申请到的ip段,在某个范围内使用. 因此早期只能是国家为单位的基础数据. 对于比较大的国家,就进一步划分,比如,中国某通讯公司(不打广告 ...
深入理解计算机系统chapter8
进程轮流使用处理器父进程调用fork来创建一个新的子进程回收子进程 waitpid/wait 非本地跳转:
Docker入门之三容器
上一篇博客学习了下镜像,今天来学习容器.容器类似一个手机中的沙盒环境,用来运行app实例.和镜像一样也是对容器的创建.删除.导出等. 由于我买的参考书中的例子好多都是基于linux的,所以我将dock ...
SLB vs CLB
什么是SLB? SLB, 服务器负载均衡(Server Load Balancing),可以看作HSRP(热备份路由器协议)的扩展,实现多个服务器之间的负载均衡. 虚拟服务器代表的是多个真实服务器的群 ...
Count Color 线段树
Count Color Time Limit:1000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Submit ...