在MapReduce中使用lzo压缩

 1).首先将数据文件在本地使用lzop命令压缩。具体配置过详见配置hadoop集群的lzo压缩

//压缩lzop,解压缩lzop -d
[root@ncst word]# lzop words.txt
[root@ncst word]# ls
words.txt words.txt.lzo

 2).将lzo文件上传到hdfs

[root@ncst word]# hadoop fs -put words.txt.lzo /test/in/words/
[root@ncst word]# hadoop fs -ls /test/in/words
Found 1 items
-rw-r--r--   1 root supergroup        115 2015-08-28 21:13 /test/in/words/words.txt.lzo

 3).给Lzo文件建立索引Index(两种方式)

//单机版
[root@ncst word]# hadoop jar \
> /usr/local/hadoop/hadoop-2.2.0/share/hadoop/common/lib/hadoop-lzo-0.4.20-SNAPSHOT.jar \
> com.hadoop.compression.lzo.LzoIndexer \
> /test/in/words
//集群版本
[root@ncst word]# hadoop jar \
> /usr/local/hadoop/hadoop-2.2.0/share/hadoop/common/lib/hadoop-lzo-0.4.20-SNAPSHOT.jar \
> com.hadoop.compression.lzo.DistributedLzoIndexer \
> /test/in/words
//索引文件以.index结尾
[root@ncst word]# hadoop fs -ls /test/in/words
Found 2 items
-rw-r--r-- 1 root supergroup 115 2015-08-28 21:13 /test/in/words/words.txt.lzo
-rw-r--r-- 1 root supergroup 8 2015-08-28 21:28 /test/in/words/words.txt.lzo.index

 4).编写MapReduce程序(需要添加的额外包hadoop-lzo-0.4.13.jar)

package test0820;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.io.VLongWritable;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser; import com.hadoop.compression.lzo.LzopCodec;
import com.hadoop.mapreduce.LzoTextInputFormat; public class WordCount0826 { public static void main(String[] args) throws Exception {
Configuration conf = new Configuration();

//GenericOptionsParser类的getRemainingArgs()方法作用是从命令行获取配置信息
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

if (otherArgs.length != 2) {
System.err.println("Usage: wordcount <in> <out>");
System.exit(2);
} Job job = Job.getInstance(conf);
job.setJarByClass(WordCount0826.class); job.setMapperClass(IIMapper.class);
job.setReducerClass(IIReducer.class); job.setMapOutputKeyClass(Text.class);
job.setMapOutputValueClass(VLongWritable.class); job.setOutputKeyClass(Text.class);
job.setOutputValueClass(VLongWritable.class); //配置输入类型为Lzo
job.setInputFormatClass(LzoTextInputFormat.class);


//配置reduce结果压缩以及压缩格式
FileOutputFormat.setCompressOutput(job, true);
FileOutputFormat.setOutputCompressorClass(job, LzopCodec.class);


FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); System.exit(job.waitForCompletion(true)? 0:1);
}
//map
public static class IIMapper extends Mapper<LongWritable, Text, Text, VLongWritable>{
@Override
protected void map(LongWritable key, Text value,Context context)
throws IOException, InterruptedException { String[] splited = value.toString().split(" "); for(String word : splited){
context.write(new Text(word),new VLongWritable(1L));
}
}
}
//reduce
public static class IIReducer extends Reducer<Text, VLongWritable, Text, VLongWritable>{
@Override
protected void reduce(Text key, Iterable<VLongWritable> v2s, Context context)
throws IOException, InterruptedException { long sum=0; for(VLongWritable vl : v2s){
sum += vl.get();
}
context.write(key, new VLongWritable(sum));
}
}
}

 5).运行hadoop jar

[root@ncst test]# hadoop jar myjar.jar /test/in/words/ /test/out/0828/02

  如若未在程序中配置输入和输出都为Lzo格式,可以在命令行通过 -D 开头的参数进行配置

hadoop jar myjar.jar \
-D mapred.reduce.tasks=2 \
-D mapreduce.job.inputformat.class=com.hadoop.mapreduce.LzoTextInputFormat \
-D mapred.output.compress=true \
-D mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec \
/test/in/words /test/out/0828/001

 6).查看结果文件

[root@ncst test]# hadoop fs -ls /test/out/0828/001
Found 3 items
-rw-r--r-- 1 root supergroup 0 2015-08-28 21:35 /test/out/0828/001/_SUCCESS
-rw-r--r-- 1 root supergroup 61 2015-08-28 21:35 /test/out/0828/001/part-r-00000.lzo
-rw-r--r-- 1 root supergroup 87 2015-08-28 21:35 /test/out/0828/001/part-r-00001.lzo

 7).查看结果Lzo文件的内容(两种方式)

//以fs -get方式下载下来,再解压
[root@ncst test]# hadoop fs -get /test/out/0828/001 ~/out
[root@ncst test]# cd ~/out

//lzop -d *.lzo 是解压lzo文件的命令
[root@ncst out]# lzop -d part-*
[root@ncst out]# ls
part-r-00000 part-r-00000.lzo part-r-00001 part-r-00001.lzo _SUCCESS
//利用fs -text 结合Linux的重定向 > 命令
[root@ncst test]# hadoop fs -text /test/out/0828/001/part-* > out.txt

//查看out.txt结果
[root@ncst test]# more out.txt
hello 3
man 2
women 2
word 1
world 2

总结:

  • lzo文件需要建立索引才能支持分块(split)。如果没有索引,lzo文件也是可以处理的,MapReduce会根据后缀名 “.lzo” 来对lzo文件解压,并且InputFormat也不需要特别指定,但是不支持分块,整个lzo文件只用一个map来处理。
  • 对于输入文件为添加了索引的Lzo压缩文件,如若不在代码中指定 job.setInputFormatClass(LzoTextInputFormat.class); 则Mapreduce程序将会把索引文件.index也当作是数据文件!LzoTextInputFormat类需要引入相应的(hadoop-lzo-0.4.13.jar)包,如果你是使用Maven管理依赖,则需要在pom.xml文件中添加以下属性。
<dependency>
<groupId>com.hadoop.gplcompression</groupId>
<artifactId>hadoop-lzo</artifactId>
<version>0.4.19</version>
</dependency>

在Streaming程序中使用lzo压缩

把InputFormat设置为DeprecatedLzoTextInputFormat,还要设置参数 stream.map.input.ignoreKey=true。这样map的key值(key值是行在文件中的偏移量,value值是每行的文本)就不会传入reduce程序中,这个key值我们是不需要的。

hadoop jar
/opt/mapr/hadoop/hadoop-0.20.2/contrib/streaming/hadoop-0.20.2-dev-streaming.jar
-file /home/pyshell/map.py
-file /home/pyshell/red.py
-mapper /home/pyshell/map.py
-reducer /home/pyshell/red.py
-input /aojianlog/20120304/gold/gold_38_3.csv.lzo
-output /aojianresult/gold38
-inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat //没有此选项,map作业也不会分片
-jobconf mapred.output.compress=true //指定reduce输出压缩
-jobconf mapred.output.compression.codec=com.hadoop.compression.lzo.LzopCodec //没有此选项,reduce作业输出文件的格式为.lzo_deflate

在hive中使用lzo压缩

hadoop集群启用了Lzo压缩,就需要在Hive建表的时候指定压缩时所使用的编解码器,否则Hive无法正确读取数据。

 1).Gzip和Bzip2由于是hadoop默认支持的,所以无需指定特殊的编解码器,只要指定Text类型即可。

create table lzo(
id int,
name string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;

 2).LZO是外挂的第三方库,所以要指定输入和输出的编解码器。

create table lzo(
id int,
name string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'
STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat';

 3).对于Hive表的数据文件,用lzop在本地压缩好了,直接上传到hdfs上就可以了。

[root@ncst test]# lzop -v lzo
compressing lzo into lzo.lzo

hive> load data local inpath '/root/test/lzo.lzo'
> overwrite into table lzo;

hive> select * from lzo;
OK
Tie
Coat
Hat
Scarf
Time taken: 0.218 seconds, Fetched: 4 row(s)

 4).对于已经存在的表修改为Lzo

  alter table后对已经load进表中的数据,需要重新load和创建索引,要不还是不能分块。

ALTER TABLE things
SET FILEFORMAT
INPUTFORMAT "com.hadoop.mapred.DeprecatedLzoTextInputFormat"
OUTPUTFORMAT "org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat";

 5).在做数据清洗的时候,假如源日志是lzo压缩的,输出的时候也希望使用lzo压缩。则在数据清洗的脚本中对hadoop的jobconf做一个指定。这样就可以做到,输入是lzo,输出也可以lzo。或者输入是text,输出是lzo。

-inputformat com.hadoop.mapred.DeprecatedLzoTextInputFormat
-jobconf mapreduce.output.compress=true
-jobconf mapreduce.output.compression.codec=com.hadoop.compression.lzo.LzopCodec

MR案例:MR和Hive中使用Lzo压缩的更多相关文章

  1. Hive中使用LZO

    hive 中使用lzo 1 启动hive 错误Exception in thread "main" java.lang.NoClassDefFoundError: org/apac ...

  2. Hadoop、Hive【LZO压缩配置和使用】

    目录 一.编译 二.相关配置 三.为LZO文件创建索引 四.Hive为LZO文件建立索引 1.hive创建的lzo压缩的分区表 2.给.lzo压缩文件建立索引index 3.读取Lzo文件的注意事项( ...

  3. 配置hadoop集群的lzo压缩

    MR-Job中使用lzop详见MR案例:Job中使用Lzo压缩 1). 配置前的环境准备 # yum -y install lzo-devel zlib-devel gcc autoconf auto ...

  4. hadoop 支持 LZO 压缩配置

    1)hadoop 本身并不支持 lzo 压缩,故需要使用 twitter 提供的 hadoop-lzo 开源组件.hadoop lzo 需依赖 hadoop 和 lzo 进行编译,编译步骤如下. 编译 ...

  5. MR案例:Reduce-Join

    问题描述:两种类型输入文件:address(地址)和company(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD.Beijing Red Star ...

  6. MR案例:倒排索引

    1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value. 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过 ...

  7. MR案例:小文件处理方案

    HDFS被设计来存储大文件,而有时候会有大量的小文件生成,造成NameNode资源的浪费,同时也影响MapReduce的处理效率.有哪些方案可以合并这些小文件,或者提高处理小文件的效率呢? 1). 所 ...

  8. hbase使用MapReduce操作3(实现将 fruit 表中的一部分数据,通过 MR 迁入到 fruit_mr 表中)

    Runner类 实现将 fruit 表中的一部分数据,通过 MR 迁入到 fruit_mr 表中. package com.yjsj.hbase_mr; import org.apache.hadoo ...

  9. MR案例:内连接代码实现

    本文是对Hive中[内连接]的Java-API的实现,具体的HQL语句详见Hive查询Join package join.map; import java.io.IOException; import ...

随机推荐

  1. easyui tree操作

    <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/ ...

  2. mysql - json - look up subobjects or nested values directly by key or array index without reading all values

    w https://dev.mysql.com/doc/refman/5.7/en/json.html

  3. llvm,gcc

    GCC,LLVM,Clang编译器对比   在XCode中,我们经常会看到这些编译选项(如下图),有些人可能会有些茫然,本文将对GCC4.2.LLVM GCC 4.2.LLVM compliler 2 ...

  4. c 整数运算

    一.无符号加法(形式的模运算,无符号加法等价于计算模2w 的和) 示例:非负数 x 和 y 位数: w(8位机) 范围: 0 <= x,y <= 2w -1 结果:0 <= x+y ...

  5. https://zh.cppreference.com 和 https://en.cppreference.com 和 https://cppcon.org/

    https://zh.cppreference.comhttps://en.cppreference.com/w/ https://cppcon.org/

  6. leetcode 旋转单链表

    Given a linked list, rotate the list to the right by k places, where k is non-negative. Example 1: I ...

  7. replace未全局替换的坑

    今天是名副其实的周六.悠闲了一早上(太阳). 真是人在家中坐,BUG自天上来.哈哈其实也不是自天上来,还是自己之前埋下的雷. 所以修复完线上的bug,我脑中立刻浮现出两件还需要做的事情: 一,就是我现 ...

  8. Installshield 宏定义控制版本

    定义宏 在Build =>Setting => 以空格为准定义宏 使用宏 在方法里 #if 宏名称 代码 #else 代码 #endif

  9. PHP计算经纬度之间的距离

    <?php /** * 求两个已知经纬度之间的距离,单位为米 * * @param lng1 $ ,lng2 经度 * @param lat1 $ ,lat2 纬度 * @return floa ...

  10. ITL(Interested Transaction List)理解

    一.ITL描述: ITL(Interested Transaction List)是Oracle数据块内部的一个组成部分,位于数据块头(block header),itl由xid,uba,flag,l ...