【原创】MapReduce备份Elasticsearch数据到HDFS(JAVA)

一、环境：JAVA8，Elasticsearch-5.6.2，Hadoop-2.8.1
二、实现功能：mapreduce读elasticsearch数据、输出parquet文件、多输出路径
三、主要依赖

<dependency>

    <groupId>org.elasticsearch.client</groupId>

    <artifactId>transport</artifactId>

    <version></version>

</dependency>

<dependency>

    <groupId>org.apache.logging.log4j</groupId>

    <artifactId>log4j-to-slf4j</artifactId>

    <version></version>

</dependency>

<dependency>

    <groupId>ch.qos.logback</groupId>

    <artifactId>logback-classic</artifactId>

    <version></version>

</dependency>

<dependency>

    <groupId>org.apache.hadoop</groupId>

    <artifactId>hadoop-client</artifactId>

    <version></version>

</dependency>

<dependency>

    <groupId>org.apache.parquet</groupId>

    <artifactId>parquet-avro</artifactId>

    <version></version>

</dependency>

<dependency>

    <groupId>org.elasticsearch</groupId>

    <artifactId>elasticsearch-hadoop-mr</artifactId>

    <version></version>

</dependency>

<dependency>

    <groupId>org.apache.avro</groupId>

    <artifactId>avro-mapred</artifactId>

    <version></version>

</dependency>

四、主要代码
1.public class Job extends Configured implements Tool

 Configuration conf = getConf();

 conf.set(ConfigurationOptions.ES_NODES,"127.0.0.1");

 conf.set(ConfigurationOptions.ES_PORT,"9200");

 conf.set(ConfigurationOptions.ES_RESOURCE, "index/type");

 conf.set(ConfigurationOptions.ES_QUERY, "?q=*");

 Job job = Job.getInstance(conf);

 // ...（其他不重要的设置）

 // set input

 job.setInputFormatClass(EsInputFormat.class);

 // set output

 job.setOutputFormatClass(AvroParquetOutputFormat.class);

 AvroParquetOutputFormat.setOutputPath(job, ${outputDir});

 AvroParquetOutputFormat.setSchema(job, ${schema});

 AvroParquetOutputFormat.setCompression(job, CompressionCodecName.SNAPPY);

 AvroParquetOutputFormat.setCompressOutput(job, true);

 AvroParquetOutputFormat.setBlockSize(job, ${size});

 for(String name: ${list}){

 　　MultipleOutputs.addNamedOutput(job, name, AvroParquetOutputFormat.class, Void.class, GenericRecord.class);

 }

2.public class Mapper extends Mapper<Text, MapWritable, ${KeyType}, ${ValueType}>

// 代码一般，略

3.public class Reducer extends Reducer<${KeyType}, ${ValueType}, Void, GenericRecord>

 private MultipleOutputs<Void, GenericRecord> multipleOutputs;

 @Override

 protected void setup(Context context) throws IOException, InterruptedException {

     multipleOutputs = new MultipleOutputs<>(context);

 }

 @Override

 public void reduce(${KeyType} key, Iterable<${ValueType}> values, Context context) throws IOException, InterruptedException {

     for(${ValueType} value:values){

     　　GenericData.Record avroRecord = new GenericData.Record(ReflectData.get().getSchema(${实体类}.class));// value转实体类

         avroRecord.put(${字段名}, ${字段值});

     　　// ... n多字段   　　　　　　　　

         multipleOutputs.write(${Job中的name}, null, avroRecord, ${输出hdfs的绝对路径});

     }

 }

 @Override

 protected void cleanup(Context context) throws IOException, InterruptedException {

     multipleOutputs.close();

 }

五、遇到的问题
1.查询字符串scroll失败
ConfigurationOptions.ES_QUERY，不需要urlEncode，否则反而会解析失败
例如查询带时间范围：?q=event_time:>=1509465600 AND event_time:<1512057600

2.多输出路径重复跑job，根路径冲突
Job中的输出路径不能存在否则会抛异常“org.apache.hadoop.mapred.FileAlreadyExistsException”，所以在创建Job时需要判断输出路径是否存在，存在则删除。
当时用MultipleOutputs时，Job中的${outputDir}和Reducer中的${输出hdfs的绝对路径}可以是完全不同的目录，Job中的输出路径会保存_matadata等不是很重要的数据（parquet本身包含这些信息），Reducer中的输出路径为想要的输出路径，路径下只保存parquet文件。
重复执行相同的Job时删除Job中的输出路径，主要数据没有影响，另外如果Reducer的输出路径有冲突可以在Job中循环删除。

【原创】MapReduce备份Elasticsearch数据到HDFS(JAVA)的更多相关文章

使用MapReduce将mysql数据导入HDFS
package com.zhen.mysqlToHDFS; import java.io.DataInput; import java.io.DataOutput; import java.io.IO ...
kafka消费者实时消费数据存入hdfs java scalca 代码
hadoop-client依赖很乱调试很多次cdh版本好多jar没有用hadoop2.7.3可以自定义输出流的池子进行流管理 public void writeLog2HDFS(String p ...
Hbase使用MapReduce编程导出数据到HDFS
废话少说,直接上代码! package cn.com.oozie.demo; import java.io.IOException; import org.apache.hadoop.conf.C ...
elasticsearch数据备份还原
elasticsearch数据备份还原 1.在浏览器中运行http://XXX.XXX.XXX.XXX:9200/_flush,确保索引数据能保存到硬盘中. 2.原数据的备份.主要是elasticse ...
实际使用Elasticdump工具对Elasticsearch集群进行数据备份和数据还原
文/朱季谦目录一.Elasticdump工具介绍二.Elasticdump工具安装三.Elasticdump工具使用最近在开发当中做了一些涉及到Elasticsearch映射结构及数据导出导 ...
【原创】大叔经验分享（26）hive通过外部表读写elasticsearch数据
hive通过外部表读写elasticsearch数据,和读写hbase数据差不多,差别是需要下载elasticsearch-hadoop-hive-6.6.2.jar,然后使用其中的EsStorage ...
Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
HDFS Java API的使用举例
HDFS是Hadoop应用程序使用的主要分布式存储.HDFS集群主要由管理文件系统元数据的NameNode和存储实际数据的DataNodes组成,HDFS架构图描述了NameNode,DataNode ...
hadoop2的mapreduce操作hbase数据
1.从hbase中取数据,再把计算结果插入hbase中 package com.yeliang; import java.io.IOException; import org.apache.hadoo ...

随机推荐

在线修改MySQL大表的表结构
由于某个临时需求,需要给在线MySQL的某个超过千万的表增加一个字段.此表在设计之时完全按照需求实现,并没有多余的保留字段. 我们知道在MySQL中如果要执行ALTER TABLE操作,MySQL会通 ...
equals() 和 hashCode()
equals() 和 hashCode()这两个方法在java.lang.Object中,所有的类都可以继承这两个方法: 但是,这两个方法在Object类中的实现一般没什么用,所以你通常需要自己重载这 ...
组队训练2 回放(转载至cxhscst2's blog)
2017/3/4 12:00-17:00 Solve 9 / 13 Penalty 717 练习赛过程回放: 开场5分中J题签到(cst) 12分钟时qw签到A 这时qw继续开写M,WA,检查代码. ...
dubbo-admin安装和使用
更新下链接,不知道是不是这个项目合入Apache的缘故,链接都变成了https://github.com/apache/incubator-dubbo/ 按照常理,直接去 https://github ...
Meteor ToDo App实例
在本章中,我们将创建一个简单的待办事项应用程序. 第1步 - 创建应用程序打开命令提示符,运行以下命令 - C:\Users\Administrator\Desktop>meteor crea ...
数据库（Mysql）背后的数据结构-学习
来吧,用这三篇文章夯实对Mysql的理解吧. 关于数据库索引及其优化,更多可参见此文:http://www.cnblogs.com/pkuoliver/archive/2011/08/17/mass- ...
开源yYmVc项目，邀您和我一起开发:)
打算在闲暇时间写个MVC框架,要有什么功能一步一步边写边加,仿照struts 2 和 spring mvc.假设您感兴趣的话,能够私密我,给您加入key:). 欢迎您的到来~ 项目放在基于GIT的CS ...
InnoDB: Error: io_setup() failed with EAGAIN after 5 attempts
在一台server中以各数据库的备份文件为数据文件启动多个MySQL实例供SQL Review使用. 之前执行一直没有问题(最多的时候有23个MySQL实例同一时候执行).后来新配置了一台server ...
鸡肋的JdbcRDD
今天准备将mysql的数据倒腾到RDD.非常早曾经就知道有一个JdbcRDD.就想着使用一下,结果发现却是鸡肋一个. 首先,看看JdbcRDD的定义: * An RDD tha ...
uva live 4394 String painter 区间dp
// uva live 4394 String painter // // 这一题是训练指南上dp专题的习题,初看之下认为仅仅是稍微复杂了一点 // 就敲阿敲阿敲,两个半小时后,发现例子过了.然而自己 ...

【原创】MapReduce备份Elasticsearch数据到HDFS(JAVA)

【原创】MapReduce备份Elasticsearch数据到HDFS(JAVA)的更多相关文章

随机推荐

热门专题