使用MapReduce将HDFS数据导入Mysql

将HDFS数据导入Mysql,代码示例

package com.zhen.mysqlToHDFS;

import java.io.DataInput;

import java.io.DataOutput;

import java.io.IOException;

import java.sql.PreparedStatement;

import java.sql.ResultSet;

import java.sql.SQLException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.Writable;

import org.apache.hadoop.mapred.lib.db.DBWritable;

import org.apache.hadoop.mapreduce.Counter;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;

import org.apache.hadoop.mapreduce.lib.db.DBOutputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

 * @author FengZhen

 * 将hdfs数据导入mysql

 * 使用DBOutputFormat将HDFS路径下的结构化数据写入mysql中，结构化数据如下,第一列为key,后边三列为数据

 * 0    1    Enzo    180.66

 * 1    2    Din    170.666

 *

 */

public class DBOutputFormatApp extends Configured implements Tool{

    /**

     * JavaBean

     * 需要实现Hadoop序列化接口Writable以及与数据库交互时的序列化接口DBWritable

     * 官方API中解释如下：

     * public class DBInputFormat<T extends DBWritable>

     *   extends InputFormat<LongWritable, T> implements Configurable

     * 即Mapper的Key是LongWritable类型，不可改变；Value是继承自DBWritable接口的自定义JavaBean

     */

    public static class BeanWritable implements Writable, DBWritable {

        private int id;

        private String name;

        private double height;

        public void readFields(ResultSet resultSet) throws SQLException {

            this.id = resultSet.getInt();

            this.name = resultSet.getString();

            this.height = resultSet.getDouble();

        }

        public void write(PreparedStatement preparedStatement) throws SQLException {

            preparedStatement.setInt(, id);

            preparedStatement.setString(, name);

            preparedStatement.setDouble(, height);

        }

        public void readFields(DataInput dataInput) throws IOException {

            this.id = dataInput.readInt();

            this.name = dataInput.readUTF();

            this.height = dataInput.readDouble();

        }

        public void write(DataOutput dataOutput) throws IOException {

            dataOutput.writeInt(id);

            dataOutput.writeUTF(name);

            dataOutput.writeDouble(height);

        }

        public void set(int id,String name,double height){

            this.id = id;

            this.name = name;

            this.height = height;

        }

        @Override

        public String toString() {

            return id + "\t" + name + "\t" + height;

        }

    }

    public static class DBOutputMapper extends Mapper<LongWritable, Text, NullWritable, BeanWritable>{

        private NullWritable outputKey;

        private BeanWritable outputValue;

        @Override

        protected void setup(Mapper<LongWritable, Text, NullWritable, BeanWritable>.Context context)

                throws IOException, InterruptedException {

            this.outputKey = NullWritable.get();

            this.outputValue = new BeanWritable();

        }

        @Override

        protected void map(LongWritable key, Text value,

                Mapper<LongWritable, Text, NullWritable, BeanWritable>.Context context)

                throws IOException, InterruptedException {

            //插入数据库成功的计数器

            final Counter successCounter = context.getCounter("exec", "successfully");

            //插入数据库失败的计数器

            final Counter faildCounter = context.getCounter("exec", "faild");

            //解析结构化数据

            String[] fields = value.toString().split("\t");

            //DBOutputFormatApp这个MapReduce应用导出的数据包含long类型的key，所以忽略key从1开始

            if (fields.length > ) {

                int id = Integer.parseInt(fields[]);

                String name = fields[];

                double height = Double.parseDouble(fields[]);

                this.outputValue.set(id, name, height);

                context.write(outputKey, outputValue);

                //如果插入数据库成功则递增1，表示成功计数

                successCounter.increment(1L);

            }else{

                //如果插入数据库失败则递增1，表示失败计数

                faildCounter.increment(1L);

            }

        }

    }

    /**

     * 输出的key必须是继承自DBWritable的类型，DBOutputFormat要求输出的key必须是DBWritable类型

     * */

    public static class DBOutputReducer extends Reducer<NullWritable, BeanWritable, BeanWritable, NullWritable>{

        @Override

        protected void reduce(NullWritable key, Iterable<BeanWritable> values,

                Reducer<NullWritable, BeanWritable, BeanWritable, NullWritable>.Context context)

                throws IOException, InterruptedException {

            for (BeanWritable beanWritable : values) {

                context.write(beanWritable, key);

            }

        }

    }

    public int run(String[] arg0) throws Exception {

        Configuration configuration = getConf();

        //在创建Configuration的时候紧接着配置数据库连接信息

        DBConfiguration.configureDB(configuration, "com.mysql.jdbc.Driver", "jdbc:mysql://localhost:3306/hadoop", "root", "123qwe");

        Job job = Job.getInstance(configuration, DBOutputFormatApp.class.getSimpleName());

        job.setJarByClass(DBOutputFormatApp.class);

        job.setMapperClass(DBOutputMapper.class);

        job.setMapOutputKeyClass(NullWritable.class);

        job.setMapOutputValueClass(BeanWritable.class);

        job.setReducerClass(DBOutputReducer.class);

        job.setOutputFormatClass(DBOutputFormat.class);

        job.setOutputKeyClass(BeanWritable.class);

        job.setOutputValueClass(NullWritable.class);

        job.setInputFormatClass(TextInputFormat.class);

        FileInputFormat.setInputPaths(job, arg0[]);

        //配置当前作业输出到数据库表、字段信息

        DBOutputFormat.setOutput(job, "people", new String[]{"id","name","height"});

        return job.waitForCompletion(true)?:;

    }

    public static int createJob(String[] args){

        Configuration conf = new Configuration();

        conf.set("dfs.datanode.socket.write.timeout", "");

        conf.set("mapreduce.input.fileinputformat.split.minsize", "");

        conf.set("mapreduce.input.fileinputformat.split.maxsize", "");

        int status = ;

        try {

            status = ToolRunner.run(conf,new DBOutputFormatApp(), args);

        } catch (Exception e) {

            e.printStackTrace();

        }

        return status;

    }

    public static void main(String[] args) {

        args = new String[]{"/user/hadoop/mapreduce/mysqlToHdfs/people"};

        int status = createJob(args);

        System.exit(status);

    }

}

打成jar包，放在服务器上，执行hadoop jar命令

hadoop jar /Users/FengZhen/Desktop/Hadoop/other/mapreduce_jar/HDFSToMysql.jar com.zhen.mysqlToHDFS.DBOutputFormatApp

任务结束后mysql表中即可发现数据已经有了。

使用MapReduce将HDFS数据导入Mysql的更多相关文章

通过sqoop将hdfs数据导入MySQL
简介:Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql.postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracl ...
使用MapReduce将HDFS数据导入到HBase（二）
package com.bank.service; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf. ...
使用MapReduce将HDFS数据导入到HBase（一）
package com.bank.service; import java.io.IOException; import org.apache.hadoop.conf.Configuration;im ...
使用MapReduce将HDFS数据导入到HBase（三）
使用MapReduce生成HFile文件,通过BulkLoader方式(跳过WAL验证)批量加载到HBase表中 package com.mengyao.bigdata.hbase; import j ...
将Excel数据导入mysql数据库的几种方法
将Excel数据导入mysql数据库的几种方法 “我的面试感悟”有奖征文大赛结果揭晓! 前几天需要将Excel表格中的数据导入到mysql数据库中,在网上查了半天,研究了半天,总结出以下几种方法,下面 ...
使用MySQL Migration Toolkit快速将Oracle数据导入MySQL[转]
使用MySQL Migration Toolkit快速将Oracle数据导入MySQL上来先说点废话本人最近在学习一些数据库方面的知识,之前接触过Oracle和MySQL,最近又很流行MongoDB非 ...
SQLServer2005数据导入Mysql到详细教程
如果转载请注明转载地址,谢谢. SQL SERVER数据导入MYSQL目录 1.Navicat for MySQL 版本10.0.9 2.创建目标数据库 3.创建正确的SQL SERVER数据库ODB ...
Excel连接到MySQL，将Excel数据导入MySql，MySQL for Excel，，
Excel连接到MySQL 即使当今时代我们拥有了类似微软水晶报表之类的强大报表工具和其他一些灵活的客户管理应用工具,众多企业在分析诸如销售统计和收入信息的时候,微软的Excel依然是最常用的工具. ...
使用MySQL Migration Toolkit快速将Oracle数据导入MySQL
MySQL GUI Tools中的MySQL Migration Toolkit可以非常方便快捷的将Oracle数据导到MySQL中,该软件可以在http://dev.mysql.com/downlo ...

随机推荐

python 中的"switch"用法
转载:http://python.jobbole.com/82008/ 为什么Python中没有Switch/Case语句? 不同于我用过的其它编程语言,Python 没有 switch / case ...
PHPthinking为全部PHP爱好者指路
1.新手学习路线:个人觉得.自己手上应该有本參考书.像细说PHP,然后看书学习,穿插网上的一些免费视频教程(随便百度一下即可,之后我尽量整理一些给大家).当然假设自控能力差的同学.也能够參加一些培训机 ...
常见Linux/Unix开发辅助命令什锦
很多零碎命令集锦: 1. 怎样通过命令下载ftp文件 read -s -p "Your passwd: " Passwd; wget --user=YourUserName --p ...
ws 无法热替换的问题
这个坑自己踩过并且第二次就记录一下,因为一直习惯用ws, 使用热部署的时候发现无法自动同步热更新,找了很多方法,具体解决方式如下: webstorm默认保存在临时文件夹,根据下面路径将默认勾选项去除即 ...
Junit的各种断言
JUnit为我们提供了一些辅助函数,他们用来帮助我们确定被测试的方法是否按照预期的效果正常工作,通常,把这些辅助函数称为断言.下面我们来介绍一下JUnit的各种断言. 1.assertEquals 函 ...
Java集合系列之TreeMap源代码分析
一.概述 TreeMap是基于红黑树实现的.因为TreeMap实现了java.util.sortMap接口,集合中的映射关系是具有一定顺序的,该映射依据其键的自然顺序进行排序或者依据创建映射时提供的C ...
vue实践---vue结合 promise 封装原生ajax
有时候不想使用axios这样的外部依赖,想自己封装ajax,这里有两种方法方法一,在单个页面内使用封装的代码如下: beforeCreate () { this.$http = (() => ...
C语言基础知识【数组】
2017年7月11日17:34:05C 数组1.C 语言支持数组数据结构,它可以存储一个固定大小的相同类型元素的顺序集合.数组是用来存储一系列数据,但它往往被认为是一系列相同类型的变量.数组的声明并不 ...
Java 学习 day09
01-面向对象(内部类访问规则) package myFirstCode; /* 内部类的访问规则: 1. 内部类可以直接访问外部类的成员,包括私有private. 之所以可以直接访问外部类中的成员, ...
c++的检测的确比C++更严格
见下面代码 #include <stdio.h> #include <stdlib.h> #include <time.h> enum guess { paper, ...

使用MapReduce将HDFS数据导入Mysql

使用MapReduce将HDFS数据导入Mysql的更多相关文章

随机推荐

热门专题