Hadoop、Hive【LZO压缩配置和使用】

一.编译
二.相关配置
三.为LZO文件创建索引
四.Hive为LZO文件建立索引

一.编译

hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。

0. 环境准备

maven（下载安装，配置环境变量，修改sitting.xml加阿里云镜像）

gcc-c++

zlib-devel

autoconf

automake

libtool

通过yum安装即可，yum -y install gcc-c++ lzo-devel zlib-devel autoconf automake libtool

1. 下载、安装并编译LZO

wget http://www.oberhumer.com/opensource/lzo/download/lzo-2.10.tar.gz

tar -zxvf lzo-2.10.tar.gz

cd lzo-2.10

./configure -prefix=/usr/local/hadoop/lzo/

make

make install

2. 编译hadoop-lzo源码

2.1 下载hadoop-lzo的源码，下载地址：https://github.com/twitter/hadoop-lzo/archive/master.zip

2.2 解压之后，修改pom.xml

    <hadoop.current.version>3.1.3</hadoop.current.version>

2.3 声明两个临时环境变量

     export C_INCLUDE_PATH=/usr/local/hadoop/lzo/include

     export LIBRARY_PATH=/usr/local/hadoop/lzo/lib

2.4 编译

    进入hadoop-lzo-master，执行maven编译命令

    mvn package -Dmaven.test.skip=true

2.5 进入target，hadoop-lzo-0.4.21-SNAPSHOT.jar 即编译成功的hadoop-lzo组件

二.相关配置

1）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-3.1.3/share/hadoop/common/

[hadoop@hadoop102 common]$ pwd

/opt/module/hadoop-3.1.3/share/hadoop/common

[hadoop@hadoop102 common]$ ls

hadoop-lzo-0.4.20.jar

2）同步hadoop-lzo-0.4.20.jar到hadoop103、hadoop104节点

xsync hadoop-lzo-0.4.20.jar

3）core-site.xml增加配置支持LZO压缩

<configuration>

    <property>

        <name>io.compression.codecs</name>

        <value>

            org.apache.hadoop.io.compress.GzipCodec,

            org.apache.hadoop.io.compress.DefaultCodec,

            org.apache.hadoop.io.compress.BZip2Codec,

            org.apache.hadoop.io.compress.SnappyCodec,

            com.hadoop.compression.lzo.LzoCodec,

            com.hadoop.compression.lzo.LzopCodec

        </value>

    </property>

    <property>

        <name>io.compression.codec.lzo.class</name>

        <value>com.hadoop.compression.lzo.LzoCodec</value>

    </property>

</configuration>

4）同步core-site.xml到hadoop103、hadoop104

xsync core-site.xml

5）重启集群，后mr和hive可以使用LZO压缩。

三.为LZO文件创建索引

默认的.lzo压缩文件是不可以进行分片的，计算只能1个MapReduce程序，可以给.lzo文件创建索引，后续该.lzo文件可以进行分片。

如：为big_file.lzo文件创建索引

// haodoop jar leojar包  全类名  需要建立索引的.lzo文件

hadoop jar /path/to/your/hadoop-lzo.jar com.hadoop.compression.lzo.DistributedLzoIndexer big_file.lzo

四.Hive为LZO文件建立索引

官网：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LZO

1.hive创建的lzo压缩的分区表

CREATE EXTERNAL TABLE ods_log (`line` string)

PARTITIONED BY (`dt` string) -- 按照时间创建分区

STORED AS -- 指定存储方式，读数据采用LzoTextInputFormat；

  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'

  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

LOCATION '/warehouse/gmall/ods/ods_log'  -- 指定数据在hdfs上的存储位置

;

2.给.lzo压缩文件建立索引index

# 给.lzo文件建立索引，索引后.lzo文件可以分片，默认不可以，提交到hive队列

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer /warehouse/gmall/ods/ods_log/dt=2020-08-06

3.读取Lzo文件的注意事项(重要)

Hive中hive.input.format默认值为org.apache.hadoop.hive.ql.io.CombineHiveInputFormat，

CombineHiveInputFormat不能识别LZO的索引文件，而将索引文件当作输入文件，更为严重的是，这会导致LZO文件无法切片。故需要在读取LZO文件时加上如下参数。

SET hive.input.format=org.apache.hadoop.hive.ql.io.HiveInputFormat;