【转】Mapreduce部署与第三方依赖包管理

Mapreduce部署是总会涉及到第三方包依赖问题，这些第三方包配置的方式不同，会对mapreduce的部署便捷性有一些影响，有时候还会导致脚本出错。本文介绍几种常用的配置方式:

1. HADOOP_CLASSPATH

在hadoop的相关配置文件中，添加CLASSPATH路径，那么在hadoop的各个进程启动时都会载入这些包，因此对于mapreduce-job jar中则不需要额外的引入这些jars，所以mapreduce-job jar会比较小[瘦jar]，便于传输；但它的问题也比较明显，如果mapreduce-job中新增了其他引用jar，则必须重新启动hadoop的相关进程。

我们可以在hadoop-env.sh中，增加如下配置：

export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:/path/customer/jars

其中“/path/customer/jars”路径为自己的第三方jar所在的本地路径，我们需要在集群中所有的hadoop机器上都同步这些jar。

瘦jar的打包方式(maven)：

<plugin>

	<groupId>org.apache.maven.plugins</groupId>

	<artifactId>maven-dependency-plugin</artifactId>

	<executions>

		<execution>

			<id>copy-dependencies</id>

			<phase>prepare-package</phase>

			<goals>

				<goal>copy-dependencies</goal>

			</goals>

			<configuration>

				<outputDirectory>${project.build.directory}/lib</outputDirectory>

				<overWriteReleases>false</overWriteReleases>

				<overWriteSnapshots>false</overWriteSnapshots>

				<overWriteIfNewer>true</overWriteIfNewer>

			</configuration>

		</execution>

	</executions>

</plugin>

<plugin>

	<groupId>org.apache.maven.plugins</groupId>

	<artifactId>maven-jar-plugin</artifactId>

	<configuration>

		<archive>

			<manifest>

				<addClasspath>true</addClasspath>

				<classpathPrefix>lib/</classpathPrefix>

				<mainClass>com.app.script.Main</mainClass>

			</manifest>

		</archive>

	</configuration>

</plugin>

使用了copy-dependencies插件，当使用“mvn package”命令打包之后，第三方引用包会被copy到打包目录下的lib文件中(并非mapreduce-job jar内部的lib文件中)，开发者只需要把这些jars上传到所有hadoop集群即可。

2. mapred.child.env

我们可以指定mapreduce的task子进程启动时加载第三方jars，而不是让所有的hadoop子进程都加载。通过在mapred-site.xml中增加如下配置：

<property>

		<name>mapred.child.env</name>

		<value>LD_LIBRARY_PATH=/path/customer/jars</value>

		<!--

			LD_LIBRARY_PATH=$HADOOP_HOME/mapred-lib/thirdparty

		-->

</property>

这种方式和1)类似，不过更加便捷，每个mapper或者reducer子进程启动时都会重新加载第三方jars，所以当jars有变动时，只需要直接覆盖它们即可，而无需重启hadoop或者yarn。

3. -libjars选项

我们可以在使用“hadoo jar”命令时，向启动的job传递“libjars”选项参数，同时配合ToolRunner工具来解析参数并运行Job，这种方式是推荐的用法之一，因为它可以简单的实现job的依赖包和hadoop classpath解耦，可以为每个job单独设置libjars参数。这些jars将会在job提交之后复制到hadoop“共享文件系统中”(hdfs,/tmp文件夹中)，此后taskTracker即可load到本地并在任务子进程中加载。

libjars中需要指定job依赖的所有的jar全路径，并且这些jars必须在当前本地文件系统中(并非集群中都需要有此jars)，暂时还不支持hdfs。对于在HADOOP_CLASSPATH或者mapred.child.env中已经包含了jars，则不需要再-libjars参数中再次指定。因为libjars需要指定jar的全路径名，所以如果jars特别多的话，操作起来非常不便，所以我们通常将多个job共用的jars通过HADOOP_CLASSPATH或者mapred.child.end方式配置，将某个job依赖的额外的jars(少量的)通过-libjars选项指定。

hadoop jar statistic-mr.jar com.statistic.script.Main -libjars /path/cascading-core-2.5.jar,/path/cascading-hadoop-2.5.jar

4. Fatjar

胖jar，即将mapreduce-job jar所依赖的所有jar都“shade”到一个jar中，最终package成一个“独立”的可运行的jar；当然hadoop并不需要这个jar是“可运行的”，它只需要这个jar在运行时不需要额外的配置“--classpath”即可。此外Fatjar仍然可以使用HADOOP_CLASSPATH或者map.child.env所加载的jars，因为我们在打包时可以将这些jars排除，以减少fatjar的大小。

fatjar只不过是一种打包的方式，也仍然可以和“-libjars”选项配合。不过从直观上来说，fatjar确实是解决“-libjars”不方便的技巧。

此例中，我们使用cascading来开发一个mapreduce job，但是我们又不希望cascading的相关依赖包被放入HADOOP_CLASSPATH中，因为其他的job可能不需要或者其他的job有可能使用其他版本的cascading；所以就使用Fatjar，把job程序和cascading的依赖包全部“shade”在一起。

使用maven assambly插件来完成fatjar的打包工作：

1) pom.xml

<build>

	<finalName>statistic-mapred</finalName>

	<plugins>

		<plugin>

			<groupId>org.apache.maven.plugins</groupId>

			<artifactId>maven-assembly-plugin</artifactId>

			<configuration>

				<descriptors>

					<descriptor>src/assembly.xml</descriptor>

				</descriptors>

				<archive>

					<!-- optional -->

					<!--

					<manifest>

						<mainClass>com.script.Main</mainClass>

						<addClasspath>true</addClasspath>

					</manifest>

					-->

				</archive>

			</configuration>

			<executions>

				<execution>

					<id>make-assembly</id>

					<phase>package</phase>

					<goals>

						<goal>single</goal>

					</goals>

				</execution>

			</executions>

		</plugin>

	</plugins>

</build>

2) assambly.xml

<assembly>

	<id>cascading</id>

	<formats>

		<format>jar</format>

	</formats>

	<includeBaseDirectory>false</includeBaseDirectory>

	<dependencySets>

		<dependencySet>

			<unpack>true</unpack>

			<scope>runtime</scope>

			<!--

			<excludes>

				<exclude>org.apache.hadoop:*</exclude>

			</excludes>

			-->

			<!-- very small jar -->

			<includes>

				<include>cascading:*</include>

				<include>thirdparty:*</include>

			</includes>

		</dependencySet>

	</dependencySets>

	<fileSets>

		<fileSet>

			<directory>${project.build.outputDirectory}</directory>

			<outputDirectory>/</outputDirectory>

		</fileSet>

	</fileSets>

</assembly>

在assambly.xml中我们通过<include>标签来包含需要被“shade”的第三方依赖包，并且采用了unpack(解压)方式，此例中我们只将cascading的jar打进fatjar中，对于其他包将会被忽略，因为这些包已经在hadoop中存在(比如hadoop，hdfs，mapreduce，已经其他的常用包，都可以共用hadoop的)，最终我们的打包结果如下：

有了fatjar，确实大大的减少了开发工程师部署mapreduce的复杂度和出错的可能性，如果你有即备的maven环境，建议使用fatjar的方式。将fatjar直接放在hadoop中使用“hadoop jar”指令即可执行，几乎无需关心依赖包遗漏的问题。

此外，需要备注一下，在使用cascading时，如果采用了HADOOP_CLASSPATH或者mapred.child.env方式管理依赖时，会偶尔抛出：

Split class cascading.tap.hadoop.MultiInputSplit not found

尽管cascading的所有依赖包都在CLASSPATH中，也无法解决这个问题，不确定究竟发生了什么！！后来采用了fatjar之后，问题解决！！

【转】Mapreduce部署与第三方依赖包管理的更多相关文章

Mapreduce部署与第三方依赖包管理
Mapreduce部署是总会涉及到第三方包依赖问题,这些第三方包配置的方式不同,会对mapreduce的部署便捷性有一些影响,有时候还会导致脚本出错.本文介绍几种常用的配置方式: 1. HADOOP_ ...
flutter如何使用配置文件pubspec.yaml（位于项目根目录）来管理第三方依赖包
官方文档在软件开发中,很多时候有一些公共的库或SDK可能会被很多项目用到,因此,将这些代码单独抽到一个独立模块,然后哪个项目需要使用时再直接集成这个模块,便可大大提高开发效率.很多编程语言或开发工具 ...
Java基础-Eclipse第三方安装包管理工具之Maven
Java基础-Eclipse第三方安装包管理工具之Maven 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 玩过Linux的小伙伴应该都知道yum吧,我们只要把搭建好的yum仓库配 ...
go依赖包管理工具vendor基础
go依赖包管理工具vendor基础 vendor是go的依赖包管理工具,主要用于管理项目中使用到的一些依赖. 它将项目依赖的包,特指外部包,复制到当前工程下的vendor目录下,这样go build的 ...
bower一个强大的前端依赖包管理工具
在介绍之前,你必须的知道bower是基于nodejs开发的,所以你首先必须得有个nodejs环境,至于这么安装nodejs网上一大堆教程,对了使用bower还需要安装git,这里就不多说了. #### ...
Maven 手动添加第三方依赖包及编译打包和java命令行编译JAVA文件并使用jar命令打包
一,实例:新建了一个Maven项目,在eclipse中通过 build path –> configure path-.将依赖包添加到工程中后,eclipse不报错了.但是用Maven命令 mv ...
安装CDH第三方依赖包
安装CDH第三方依赖包: yum install chkconfig python bind-utils psmisc libxslt zlib sqlite cyrus-sasl-plain cyr ...
SAE 安装未包含的第三方依赖包
如何使用virtualenv管理依赖关系当你的应用依赖很多第三方包时,可以使用virtualenv来管理并导出这些依赖包,流程如下: 首先,创建一个全新的Python虚拟环境目录ENV,启动虚拟环境 ...
eclipse打jar包解决第三方依赖包
在项目根目录下手动MANIFEST.MF(eclipse无法自动生成) MANIFEST.MF Manifest-Version: 1.0 Class-Path: lib/kafka-clients- ...

随机推荐

JSP慕课网之application、page、pageContext、config、exception
接下来使用getSession().forward().include()方法. 跳转的include.jsp页面:
两个input在同一行连着不留缝隙
方法1:让两个input 连在一起写不换行 <div class="inputDiv"> <input type="text" placeh ...
hashlib使用时出现: Unicode-objects must be encoded before hashing
# hashlib.md5(data)函数中,data参数的类型应该是bytes# hash前必须把数据转换成bytes类型>>> from hashlib import md5 F ...
javascript学习笔记-2：jQuery中$("xx")返回值探究
最近在写一个jQuery插件的时候,需要用到一个条件: 一组img标签,每一个元素都需要被它前面的元素值src替换,如果是第一个(序列为0)则其值为最后一个元素值,如果是最后一个,那么其值为第一个元素 ...
java_eclipse添加DID实现自动提示
便捷无错开发对于xml 配置没有自动提示是多么恼火就不用说了,eclipse本身很多都是默认关闭了的,如果开发者不知道的话,就不知道怎么去设置,下面介绍几种自动提示设置的方法: XML:获得提示更好 ...
angularJS+Ionic移动端图片上传的解决办法
前端开发中经常会碰到图片上传的问题,网上的解决办法很多,可是有些图片上传的插件会有一些附属的插件,因此因为一个图片上传的问题可能额需要引入其他插件到项目中,久而久之项目会不伦不类,有时候插件之间也会有 ...
oracle12c之单机12.1.0.1打补丁
1. 下载最新的12.1.0.1的DB PSU 与 OPatchp23054354_121010_Linux-x86-64.zipp6880880_121010_Linux-x86-64.zip 2. ...
个人作业2 — 英语学习APP的案例分析
一.调研准备: 1.软件:必应词典 2.平台:安卓 3.bug定义:(引用自<构建之法>13.1节) Bug:软件的缺陷 Bug可以分解为:症状(Symptom). ...
201521123006 《java程序设计》第10周学习总结
1. 本周学习总结 1.1 以你喜欢的方式(思维导图或其他)归纳总结异常与多线程相关内容. 2. 书面作业本次PTA作业题集异常.多线程 1.finally 题目4-2 1.1 截图你的提交结果(出 ...
一步步带你做vue后台管理框架(三)——登录功能
系列教程<一步步带你做vue后台管理框架>第三课 github地址:vue-framework-wz 线上体验地址:立即体验 <一步步带你做vue后台管理框架>第一课:介绍框架 ...

【转】Mapreduce部署与第三方依赖包管理

【转】Mapreduce部署与第三方依赖包管理的更多相关文章

随机推荐

热门专题