Hadoop 2.x(YARN)安装配置LZO

今天尝试在Hadoop 2.x(YARN)上安装和配置LZO，遇到了很多坑，网上的资料都是基于Hadoop 1.x的，基本没有对于Hadoop 2.x上应用LZO，我在这边记录整个安装配置过程

1. 安装LZO

下载lzo 2.06版本，编译64位版本，同步到集群中

wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar.gz

export CFLAGS=-m64

./configure -enable-shared -prefix=/usr/local/hadoop/lzo/

make && make test && make install

同步 /usr/local/hadoop/lzo/到整个集群上

2. 安装Hadoop-LZO

注意，Hadoop 1.x的时候我们是直接按照cloudera的文档clone https://github.com/kevinweil/hadoop-lzo.git上编译的，它是fork自https://github.com/twitter/hadoop-lzo。

但是kevinweil这个版本已经很久没有更新了，而且它是基于Hadoop 1.x去编译的，不能用于Hadoop 2.x。而twitter/hadoop-lzo三个月将Ant的编译方式切换为Maven，默认的dependency中Hadoop jar包就是2.x的，所以要clone twitter的hadoop-lzo，用Maven编译jar包和native library。

编译前先想pom中的hadoop-common和hadoop-mapreduce-client-core版本号改成2.1.0-beta

git clone https://github.com/twitter/hadoop-lzo.git

export CFLAGS=-m64

export CXXFLAGS=-m64

export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include

export LIBRARY_PATH=/usr/local/hadoop/lzo/lib

mvn clean package -Dmaven.test.skip=true

tar -cBf - -C target/native/Linux-amd64-64/lib . | tar -xBvf - -C /usr/local/hadoop/hadoop-2.1.0-beta/lib/native/

cp target/hadoop-lzo-0.4.18-SNAPSHOT.jar /usr/local/hadoop/hadoop-2.1.0-beta/share/hadoop/common/

lib/native下的文件，包含native libraries和native compression

-rw-r--r-- 1 hadoop hadoop  104206 Sep  2 10:44 libgplcompression.a

-rw-rw-r-- 1 hadoop hadoop    1121 Sep  2 10:44 libgplcompression.la

lrwxrwxrwx 1 hadoop hadoop      26 Sep  2 10:47 libgplcompression.so -> libgplcompression.so.0.0.0

lrwxrwxrwx 1 hadoop hadoop      26 Sep  2 10:47 libgplcompression.so.0 -> libgplcompression.so.0.0.0

-rwxrwxr-x 1 hadoop hadoop   67833 Sep  2 10:44 libgplcompression.so.0.0.0

-rw-rw-r-- 1 hadoop hadoop  835968 Aug 29 17:12 libhadoop.a

-rw-rw-r-- 1 hadoop hadoop 1482132 Aug 29 17:12 libhadooppipes.a

lrwxrwxrwx 1 hadoop hadoop      18 Aug 29 17:12 libhadoop.so -> libhadoop.so.1.0.0

-rwxrwxr-x 1 hadoop hadoop  465801 Aug 29 17:12 libhadoop.so.1.0.0

-rw-rw-r-- 1 hadoop hadoop  580384 Aug 29 17:12 libhadooputils.a

-rw-rw-r-- 1 hadoop hadoop  273642 Aug 29 17:12 libhdfs.a

lrwxrwxrwx 1 hadoop hadoop      16 Aug 29 17:12 libhdfs.so -> libhdfs.so.0.0.0

-rwxrwxr-x 1 hadoop hadoop  181171 Aug 29 17:12 libhdfs.so.0.0.0

将 hadoop-lzo-0.4.18-SNAPSHOT.jar和/usr/local/hadoop/hadoop-2.1.0-beta/lib/native/ 同步到整个集群中

3. 设置环境变量

在hadoop-env.sh中加入

export LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib

core-site加入

<property>

	<name>io.compression.codecs</name>	<value>org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.DefaultCodec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec,org.apache.hadoop.io.compress.BZip2Codec</value>

</property>

<property>

	<name>io.compression.codec.lzo.class</name>

	<value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

mapred-site.xml加入

<property>

	<name>mapred.compress.map.output</name>

	<value>true</value>

</property>

<property>

	<name>mapred.map.output.compression.codec</name>

	<value>com.hadoop.compression.lzo.LzoCodec</value>

</property>

<property>

	<name>mapred.child.env</name>

	<value>LD_LIBRARY_PATH=/usr/local/hadoop/lzo/lib</value>

</property>

其中mapred-site中设置mapred.child.env的 LD_LIBRARY_PATH很重要，因为hadoop-lzo通过JNI调用(java.library.path) libgplcompression.so，然后libgplcompression.so 再通过dlopen这个系统调用（其实是查找系统环境变量LD_LIBRARY_PATH ）来加载liblzo2.so 。container在启动的时候，需要设置LD_LIBRARY_PATH 环境变量，来让LzoCodec加载 native-lzo library，如果不设置的话，会在container的syslog中报下面的错误

2013-09-02 11:20:12,004 INFO [main] com.hadoop.compression.lzo.GPLNativeCodeLoader: Loaded native gpl library

2013-09-02 11:20:12,006 WARN [main] com.hadoop.compression.lzo.LzoCompressor: java.lang.UnsatisfiedLinkError: Cannot load liblzo2.so.2 (liblzo2.so.2: cannot open shared object file: No such file or directory)!

2013-09-02 11:20:12,006 ERROR [main] com.hadoop.compression.lzo.LzoCodec: Failed to load/initialize native-lzo library

同步hadoop-env.sh, core-site.xml, mapred-site.xml到集群

LzoCodec加载gplcompression和lzo native library

  static {

    if (GPLNativeCodeLoader.isNativeCodeLoaded()) {

      nativeLzoLoaded = LzoCompressor.isNativeLzoLoaded() &&

      LzoDecompressor.isNativeLzoLoaded();

      if (nativeLzoLoaded) {

        LOG.info("Successfully loaded & initialized native-lzo library [hadoop-lzo rev " + getRevisionHash() + "]");

      } else {

        LOG.error("Failed to load/initialize native-lzo library");

      }

    } else {

      LOG.error("Cannot load native-lzo without native-hadoop");

    }

  }

LzoCompressor和LzoDecompressor会调用本地方法initIDs

在impl/lzo/LzoCompressor.c中加载liblzo2.so

Java_com_hadoop_compression_lzo_LzoCompressor_initIDs(

  JNIEnv *env, jclass class

  ) {

  // Load liblzo2.so

  liblzo2 = dlopen(HADOOP_LZO_LIBRARY, RTLD_LAZY | RTLD_GLOBAL);

  if (!liblzo2) {

    char* msg = (char*)malloc(1000);

    snprintf(msg, 1000, "%s (%s)!", "Cannot load " HADOOP_LZO_LIBRARY, dlerror());

    THROW(env, "java/lang/UnsatisfiedLinkError", msg);

    return;

  }

  LzoCompressor_clazz = (*env)->GetStaticFieldID(env, class, "clazz",

                                                 "Ljava/lang/Class;");

  LzoCompressor_finish = (*env)->GetFieldID(env, class, "finish", "Z");

  LzoCompressor_finished = (*env)->GetFieldID(env, class, "finished", "Z");

  LzoCompressor_uncompressedDirectBuf = (*env)->GetFieldID(env, class,

                                                    "uncompressedDirectBuf",

                                                    "Ljava/nio/ByteBuffer;");

  LzoCompressor_uncompressedDirectBufLen = (*env)->GetFieldID(env, class,

                                            "uncompressedDirectBufLen", "I");

  LzoCompressor_compressedDirectBuf = (*env)->GetFieldID(env, class,

                                                        "compressedDirectBuf",

                                                        "Ljava/nio/ByteBuffer;");

  LzoCompressor_directBufferSize = (*env)->GetFieldID(env, class,

                                            "directBufferSize", "I");

  LzoCompressor_lzoCompressor = (*env)->GetFieldID(env, class,

                                          "lzoCompressor", "J");

  LzoCompressor_lzoCompressionLevel = (*env)->GetFieldID(env, class,

                                                "lzoCompressionLevel", "I");

  LzoCompressor_workingMemoryBufLen = (*env)->GetFieldID(env, class,

                                                "workingMemoryBufLen", "I");

  LzoCompressor_workingMemoryBuf = (*env)->GetFieldID(env, class,

                                              "workingMemoryBuf",

                                              "Ljava/nio/ByteBuffer;");

  // record lzo library version

  void* lzo_version_ptr = NULL;

  LOAD_DYNAMIC_SYMBOL(lzo_version_ptr, env, liblzo2, "lzo_version");

  liblzo2_version = (NULL == lzo_version_ptr) ? 0

    : (jint) ((unsigned (__LZO_CDECL *)())lzo_version_ptr)();

}

创建container上下文信息的时候，会读取mapred.child.env作为子进程环境变量的一部分

4. 测试mapreduce读lzo

hive新建一张表lzo_test

CREATE TABLE lzo_test(

 col String

)

STORED AS INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"

OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";

下载lzop工具，load一个lzo文件进lzo_test表中，执行“select * from lzo_test"和"select count(1) from lzo_test"正确

同时用户可以通过单机作业或者分布式程序生成lzo.index文件

hadoop jar /usr/local/hadoop/hadoop-2.1.0-beta/share/hadoop/common/hadoop-lzo-0.4.18-SNAPSHOT.jar com.hadoop.compression.lzo.DistributedLzoIndexer /user/hive/warehouse/lzo_test/

hadoop jar /usr/local/hadoop/hadoop-2.1.0-beta/share/hadoop/common/hadoop-lzo-0.4.18-SNAPSHOT.jar com.hadoop.compression.lzo.LzoIndexer /user/hive/warehouse/lzo_test/

本文链接http://blog.csdn.net/lalaguozhe/article/details/10912527，转载请注明

Hadoop 2.x(YARN)安装配置LZO的更多相关文章

每天收获一点点------Hadoop基本介绍与安装配置
一.Hadoop的发展历史说到Hadoop的起源,不得不说到一个传奇的IT公司—全球IT技术的引领者Google.Google(自称)为云计算概念的提出者,在自身多年的搜索引擎业务中构建了突破性的G ...
Hadoop集群_Hadoop安装配置
1.集群部署介绍 1.1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS,Hadoop Distributed Filesy ...
三、hadoop、yarn安装配置
本文hadoop的安装版本为hadoop-2.6.5 关闭防火墙 systemctl stop firewalld 一.安装JDK 1.下载java jdk1.8版本,放在/mnt/sata1目录下, ...
Hadoop学习笔记：安装配置Hadoop
安装前的一些环境配置: 1. 给用户添加sudo权限,输入su - 进入root账号,然后输入visudo,进入编辑模式,找到这一行:"root ALL=(ALL) ALL"在下面 ...
Storm on Yarn 安装配置
1.背景知识在不修改Storm任何源代码的情况下,让Storm运行在YARN上,最简单的实现方法是将Storm的各个服务组件(包括Nimbus和Supervisor),作为单独的任务运行在YARN上 ...
Hadoop 2.7.3 安装配置及测试
1.概述 Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.hadoop三种安装模式:单机模式,伪分布式,真正分布式.因在实际生 ...
[Hadoop]Hive-1.2.x安装配置+Mysql安装
HIve的元数据存储在mysql中,需要配置与MySQL建立连接,除了安装MySQL外还要安装连接的jar包:mysql-connector-java-5.1.47.tar.gz 安装环境:Cen ...
Hadoop学习笔记：安装配置Hive
1. 在官网http://hive.apache.org/下载所需要版本的Hive,以下我们就以hive 2.1.0版为例. 2. 将下载好的压缩包放到指定文件夹解压,tar -zxvf apache ...
Hadoop集群_VSFTP安装配置
原作者写的太好了,我这个菜鸟不自觉就转载了,原文链接:http://www.cnblogs.com/xia520pi/archive/2012/05/16/2503864.html 如果,您认为阅读这 ...

随机推荐

IM与工作信息流整合
IM与工作信息流整合,希望减轻用户“信息”负担从36氪此前的<“明道”现在推出个人免费版本,是怎样的逻辑?>一文中,我们可以了解到,国内现在的协作产品设计思路主要有两种:一种是像t ...
滚动条QScroolBar实现滚屏功能（屏幕过大，覆盖wheelEvent来处理滑轮事件）
环境:Qt5 编译器:Qt Creator 需求:如图显示区域win 600*300 需要显示的Widget控件show 590*550 则有600*250的show界面无法显示使用滑块控制sho ...
What is a good EPUB reader on Linux
Last updated on August 20, 2014 Authored by Adrien Brochard 12 Comments If the habit on reading book ...
Windows Azure 成为业内首家被授权为 FedRAMP JAB P-ATO 的供应商
编辑人员注释:本文章由 Windows Azure 业务和运营部门产品市场营销总监 Sarah Fender 撰写我们高兴地宣布,Windows Azure 被 FedRAMP 联合授权董事会 (J ...
LeetCode :Word Ladder II My Solution
Word Ladder II Total Accepted: 11755 Total Submissions: 102776My Submissions Given two words (start ...
Jquery Select 下拉框处理
$("#select").empty();//清空 $("#select").append($("<option/>").val ...
用户登录session_id观看
通过使用浏览器firefox或者google看cookie id, 这样就知道登录状态怎么样了
JSPatch技术文档
一.背景需求介绍为什么我们需要一个热修复(hot-fix)技术? 工作中容易犯错.bug难以避免. 开发和测试人力有限. 苹果Appstore审核周期太长,一旦出现严重bug难以快速上线新版本. 作 ...
【原】Spring和Dubbo整合案例和过程
Dubbo是Alibaba开源的分布式服务框架,它最大的特点是按照分层的方式来架构,使用这种方式可以使各个层之间解耦合(或者最大限度地松耦合).从服务模型的角度来看,Dubbo采用的是一种非常简单的模 ...
STL之map和multimap（关联容器）
map是一类关联式容器.它的特点是增加和删除节点对迭代器的影响很小,除了那个操作节点,对其他的节点都没有什么影响.自动建立Key - value的对应,对于迭代器来说,可以修改实值,而不能修改key. ...

Hadoop 2.x(YARN)安装配置LZO

Hadoop 2.x(YARN)安装配置LZO的更多相关文章

随机推荐

热门专题