原文链接:开启hadoop和Hbase集群的lzo压缩功能

问题导读:
1.如何启动hadoop、hbase集群的压缩功能?
2.lzo的作用是什么?
3.hadoop配置文件需要做哪些修改?

首先我们明白一个概念:

LZO 是致力于解压速度的一种数据压缩算法,LZO 是 Lempel-Ziv-Oberhumer 的缩写。

安装前:
# yum -y install  lzo-devel zlib-devel  gcc autoconf automakelibtool

lzo-2.06.tar.gz下载地址:Index of /opensource/lzo/download

1.(all) 在集群的所有节点上安装Lzo库,

tar -zxvf lzo-2.06.tar.gz
cd lzo-2.06
# export CFLAGS=-m64                                   注:如果为32位系统改为export CFLAGS=-m32
#./configure --enable-shared
# make
# make install

库文件被默认安装到了/usr/local/lib,我们需要进一步指定lzo库文件的路径,两个方法都可以:
1)      拷贝/usr/local/lib目录下的lzo库文件到/usr/lib(32位平台),或/usr/lib64(64位平台)

  1. #cp /usr/local/lib/liblzo2.* /usr/lib64

复制代码

2)在/etc/ld.so.conf.d/目录下新建lzo.conf文件,写入lzo库文件的路径,然后运行/sbin/ldconfig -v,使配置生效

  1. #vi /etc/ld.so.conf.d/lzo.conf
  2. /usr/local/lib
  3. # /sbin/ldconfig -v

复制代码

2. 编译安装Hadoop Lzo本地库以及Jar包,这里采用twitter维护的,从这里下载
https://github.com/twitter/hadoop-lzo
修改pom.xml:

  1. <properties>
  2. <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  3. <hadoop.current.version>2.1.0-beta</hadoop.current.version>
  4. <hadoop.old.version>1.0.4</hadoop.old.version>
  5. </properties>

复制代码

修改为

  1. <properties>
  2. <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  3. <hadoop.current.version>2.2.0</hadoop.current.version>
  4. <hadoop.old.version>1.0.4</hadoop.old.version>
  5. </properties>

复制代码

hadoop-lzo-master.zip

  1. cd hadoop-lzo-master
  2. export CFLAGS=-m64                   注:如果为32位系统改为export CFLAGS=-m32
  3. export CXXFLAGS=-m64               注:如果为32位系统改为export CXXFLAGS=-m32
  4. export C_INCLUDE_PATH=/usr/local/include/lzo
  5. export LIBRARY_PATH=/usr/local/lib
  6. mvn clean package -Dmaven.test.skip=true

复制代码

接着把target/native/Linux-amd64-64/lib下的全部文件拷贝到${HADOOP_HOME}/lib/native,或者

  1. cp /build/native/Linux-amd64-64/lib/*  $HADOOP_HOME/lib/native/
  2. cp target/hadoop-lzo-0.4.20-SNAPSHOT.jar /opt/hadoop-2.2.0/share/hadoop/common/lib

复制代码

对于Hbase启用LZO

  1. cp $HADOOP_HOME/lib/native/Linux-amd64-64/* $HBASE_HOME/lib/native/Linux-amd64-64

复制代码

修改:
hbase-env.sh
  1. export HBASE_LIBRARY_PATH=$HBASE_LIBRARY_PATH:$HBASE_HOME/lib/native/Linux-amd64-64/:/usr/local/lib/

复制代码

同步hadoop 和hbase集群

3.配置文件修改
hadoop-env.sh中加入

  1. export JAVA_LIBRARY_PATH=$HADOOP_HOME/lib/native

复制代码

core-site.xml

  1. <!-- 配置 Hadoop压缩包 -->
  2. <property>
  3. <name>io.compression.codecs</name><value>org.apache.hadoop.io.compress.DefaultCodec,org.apache.hadoop.io.compress.GzipCodec,org.apache.hadoop.io.compress.BZip2Codec,com.hadoop.compression.lzo.LzoCodec,com.hadoop.compression.lzo.LzopCodec</value>
  4. </property>
  5. <property>
  6. <name>io.compression.codec.lzo.class</name>
  7. <value>com.hadoop.compression.lzo.LzoCodec</value>
  8. </property>

复制代码

mapred-site.xml

  1. <property>
  2. <name>mapred.compress.map.output</name>
  3. <value>true</value>
  4. </property>
  5. <property>
  6. <name>mapred.map.output.compression.codec</name>
  7. <value>com.hadoop.compression.lzo.LzoCodec</value>
  8. </property>
  9. <property>
  10. <name>mapred.child.env</name>
  11. <value>LD_LIBRARY_PATH=/usr/local/lib</value>
  12. </property>

复制代码

同步hadoop-env.sh,core-site.xml, mapred-site.xml到集群​
4.  安装lzop

下载地址:http://www.lzop.org/download/
LZOP是使用lzo库写的一个程序,通过shell命令直接可以压缩、解压缩文件。

  1. tar zxvf lzop-1.03.tar.gz
  2. cd
  3. #  exportLD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
  4. # ./configure
  5. #  make
  6. #  makeinstall

复制代码

用一下lzop的压缩解压功能,成功安装后可直接使用lzop命令对文件进行解压缩操作了。
# 压缩

  1. [hadoop@master1 ~]$ lzop -v test1.txt
  2. compressing test1.txt into test1.txt.lzo

复制代码

#上传到hdfs

  1. [hadoop@master1 ~]$ hadoop fs -put *.lzo /in

复制代码

#给Lzo文件建立Index

  1. hadoop
    jar/opt/hadoop-2.2.0/share/hadoop/common/lib/hadoop-lzo-0.4.20-SNAPSHOT.jarcom.hadoop.compression.lzo.LzoIndexer 
     /in

复制代码

#运行一个wordcount程序

  1. hadoop jar /home/hadoop/wordcount.jar   org.apache.hadoop.examples.WordCount  /input1 /out1

复制代码

正常:
14/02/23 18:53:14 INFOlzo.GPLNativeCodeLoader: Loaded native gpl library from the embedded binaries
14/02/23 18:53:14 INFO lzo.LzoCodec:Successfully loaded &
initialized native-lzo library [hadoop-lzo
rev478aa845e11bbbeeb9b8326e733cd20a06d2cb3a]

开启hadoop和Hbase集群的lzo压缩功能(转)的更多相关文章

  1. hadoop(八) - hbase集群环境搭建

    1. 上传hbase安装包hbase-0.96.2-hadoop2-bin.tar.gz 2. 解压 tar -zxvf hbase-0.96.2-hadoop2-bin.tar.gz -C /clo ...

  2. 配置hadoop集群的lzo压缩

    MR-Job中使用lzop详见MR案例:Job中使用Lzo压缩 1). 配置前的环境准备 # yum -y install lzo-devel zlib-devel gcc autoconf auto ...

  3. 使用ganglia监控hadoop及hbase集群

    一.Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gm ...

  4. docker应用-3(搭建hadoop以及hbase集群)

    要用docker搭建集群,首先需要构造集群所需的docker镜像.构建镜像的一种方式是,利用一个已有的镜像比如简单的linux系统,运行一个容器,在容器中手动的安装集群所需要的软件并进行配置,然后co ...

  5. 第十二章 Ganglia监控Hadoop及Hbase集群性能(安装配置)

    1 Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测量数以千计的节点.每台计算机都运行一个收集和发送度量数据(如处理器速度.内存使用量等)的名为 gm ...

  6. 使用ganglia监控hadoop及hbase集群 分类: B3_LINUX 2015-03-06 20:53 646人阅读 评论(0) 收藏

    介绍性内容来自:http://www.uml.org.cn/sjjm/201305171.asp 一.Ganglia简介 Ganglia 是 UC Berkeley 发起的一个开源监视项目,设计用于测 ...

  7. 设置Hadoop+Hbase集群pid文件存储位置

    有时候,我们对运行几天或者几个月的hadoop或者hbase集群做停止操作,会发现,停止命令不管用了,为什么呢? 因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和h ...

  8. Phoenix连接安全模式下的HBase集群

    Phoenix连接安全模式下的HBase集群 HBase集群开启安全模式(即启用kerberos认证)之后,用户无论是用HBase shell还是Phoenix去连接HBase都先需要通过kerber ...

  9. HBase 集群监控系统构建

    HBase 集群监控系统构建 标签(空格分隔): Hbase 一, 集群为什么需要监控系统 总的来说是为了保证系统的稳定性,可靠性,可运维性.具体来说我认为有以下几点: 掌控集群的核心性能指标,了解集 ...

随机推荐

  1. hdoj1879 继续畅通工程(Prime || Kruskal)

    题目链接 http://acm.hdu.edu.cn/showproblem.php?pid=1879 思路 这题和hdoj1102很像,图中的有一些路已经修好了,对于这些已经修好的路,我们令还需要修 ...

  2. FIFO调度算法和LRU算法

    一.理论 FIFO:先进先出调度算法 LRU:最近最久未使用调度算法 两者都是缓存调度算法,经常用作内存的页面置换算法. 打一个比方,帮助你理解.你有很多的书,比如说10000本.由于你的书实在太多了 ...

  3. Git 码云操作

    https://www.cnblogs.com/lanxiang/p/7487971.html 将项目提交到码云 在码云创建项目 然后在项目目录下: 打开后输入: git init 目录下出现.git ...

  4. Highmaps网页图表教程之数据标签与标签文本

    Highmaps网页图表教程之数据标签与标签文本 Highmaps数据标签 数据标签用于在地图图表上展现节点对应的数据.数据标签展现数据是静态的,只要节点一加载,数据标签就会出现在节点附近.在High ...

  5. LOJ P3959 宝藏 状压dp noip

    https://www.luogu.org/problemnew/show/P3959 考场上我怎么想不出来这么写的,状压白学了. 直接按层次存因为如果某个点在前面存过了则肯定结果更优所以不用在意各点 ...

  6. ShellExecuteA函数

    原型: ShellExecuteA(, , , );//最大化打开记事本 第一个参数//系统启动第二个参数//open打开第三个参数//指令第四个参数//默认0第五个参数//默认0第六个参数//0隐藏 ...

  7. Java并发(二十):线程本地变量ThreadLocal

    ThreadLocal是一个本地线程副本变量工具类. 主要用于将私有线程和该线程存放的副本对象做一个映射,各个线程之间的变量互不干扰,在高并发场景下,可以实现无状态的调用,特别适用于各个线程依赖不同的 ...

  8. ACM需要掌握算法

    数据结构 栈,队列,链表 哈希表,哈希数组 堆,优先队列 双端队列 可并堆 左偏堆 二叉查找树 Treap 伸展树 并查集 集合计数问题 二分图的识别 平衡二叉树 二叉排序树 线段树 一维线段树 二维 ...

  9. CDOJ 1401 谭爷的黑暗沙拉 数学

    谭爷的黑暗沙拉 题目连接: http://mozhu.today/#/problem/show/1401 Description 谭爷有\(n\)种不同种类的食材(水果&蔬菜),他想做出一份总 ...

  10. BZOJ 1007: [HNOI2008]水平可见直线 栈/计算几何

    1007: [HNOI2008]水平可见直线 Time Limit: 1 Sec  Memory Limit: 162 MB 题目连接 http://www.lydsy.com/JudgeOnline ...