Hadoop DBOutputFormat的使用

最近在研究数据在HDFS和关系型数据库之间的迁移，主要使用了两种方式：一是，按照数据库要求的文件格式生成文件，然后由数据库提供的导入工具进行导入；二是采用JDBC的方式进行导入。MapReduce默认提供了DBInputFormat和DBOutputFormat，分别用于数据库的读取和数据库的写入。为了使用DBOutputFormat我们需要完成以下工作。

首先，对于每一个数据库表编写对应的bean类，该类需要实现WritableComparable接口和DBWritable接口（如果是DBInputFormat，则需要实现Writable和DBWritable。之所以是这样是因为DBOutputFormat在输出的时候是将key写入到数据库而不是value。根据Hadoop的规定Key需要能够进行比较排序，所以需要实现WritableComparable）。Bean类的实现以下面的代码为例：

　　public void readFields(ResultSet result) throws SQLException {

　　		int index = 1;

　　		this.setTestId(result.getString(index++));

　　		this.setTestName(result.getString(index++));

　　		this.setAge(result.getInt(index++));

　　	}

　　	public void write(PreparedStatement statement) throws SQLException {

　　		int index = 1;

　　		statement.setString(index++, this.getTestId());

　　		statement.setString(index++, this.getTestName());

　　		statement.setInt(index, this.getAge());

　　

　　	}

上面两个方法对应着DBWriteable接口。readFields方法负责从结果集中读取数据库数据（注意ResultSet的下标是从1开始的），一次读取查询SQL中筛选的某一列。Write方法负责将数据写入到数据库，将每一行的每一列依次写入。

完成bean的定义后，进行Mapper的编写，主要是解析数据库的每一行数据然后将每一列赋值给bean对应的属性，这里不再做详细的介绍。

最后进行Job的一些配置，具体如下面代码所示：

　　Configuration conf = new Configuration();

　　conf.set(DBConfiguration.DRIVER_CLASS_PROPERTY, 			                                                       "com.mysql.jdbc.Driver");

　　conf.set(DBConfiguration.URL_PROPERTY,

　　				"jdbc:mysql://localhost:3306/htestdb");

　　conf.set(DBConfiguration.USERNAME_PROPERTY, "root");

　　conf.set(DBConfiguration.PASSWORD_PROPERTY, "");

　　job.setNumReduceTasks(0);

　　DBOutputFormat.setOutput(job, "test", "testid","testname","age");

　　job.setOutputFormatClass(DBOutputFormat.class);

上面的配置主要包括以下几项：

l 数据库驱动的名称：com.mysql.jdbc.Driver

l 数据库URL：jdbc:mysql://localhost:3306/htestdb

l 用户名：root

l 密码：空

l 数据库表以及每列的名称：DBOutputFormat.setOutput(job, "test", "testid","testname","age")

除此之外还有Hadoop基础设置，比如reduce的个数、输入输出方式、输入输出路径等，这里不再做详细介绍。

需要提醒的是DBOutputFormat以MapReduce的方式运行，会并行的连接数据库。在这里需要合适的设置map活着reduce的个数，以便将并行连接的数量控制在合理的范围之内。

Hadoop DBOutputFormat的使用的更多相关文章

Hadoop 中利用 mapreduce 读写 mysql 数据
Hadoop 中利用 mapreduce 读写 mysql 数据有时候我们在项目中会遇到输入结果集很大,但是输出结果很小,比如一些 pv.uv 数据,然后为了实时查询的需求,或者一些 OLAP ...
[Hadoop in Action] 第7章细则手册
向任务传递定制参数获取任务待定的信息生成多个输出与关系数据库交互让输出做全局排序 1.向任务传递作业定制的参数在编写Mapper和Reducer时,通常会想让一些地方可以配 ...
Hadoop相关日常操作
1.Hive相关脚本导数据,并设置运行队列 bin/beeline -u 'url' --outputformat=tsv -e "set mapreduce.job.queuename= ...
Hadoop：输入，输出，key，value格式
map: (K1, V1) → list(K2, V2) reduce: (K2, list(V2)) → list(K3, V3) (K1, V1): jobConf.setInputKeyClas ...
Hadoop学习资料
转自:http://cloud21.iteye.com/blog/607175 第一手资源 hadoop官方网站 hadoop.apache.org 最权威的官方资源之一 dev.yahoo.hado ...
hadoop MapReduce 笔记
1. MapReduce程序开发步骤编写map 和 reduce 程序–> 单元测试 -> 编写驱动程序进行验证-> 本地数据集调试 -> 部署到集群运行用 ...
hadoop之输入输出格式
<STRONG>jobConf.setInputFormat(MyInputFormat. class ); InputFormat:</STRONG> TextInputFo ...
Hadoop中常用的InputFormat、OutputFormat（转）
Hadoop中的Map Reduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据,每一个Map Reduce程序都离不开它们.Hadoop提供了一系列InputForm ...
Hadoop基础教程之高级编程
从前面的学习中,我们了解到了MapReduce整个过程需要经过以下几个步骤: 1.输入(input):将输入数据分成一个个split,并将split进一步拆成<key, value>. 2 ...

随机推荐

统一处理jquery ajax请求过程中的异常错误信息的机制
当jQuery ajax向服务器发送请求,服务器发生异常,比如:400.403.404.500等异常,服务器将异常响应给客户端,此时的ajax可以获取异常信息并进行处理,但此时我们一般是跳转到与异常编 ...
Java获取web项目路径
File f = new File(WebPath.class.getResource("/").getPath()); String path = f.getParentFile ...
Android——用对话框做登陆界面(自定义对话框AlertDialog，多线程，进度条ProgressDialog，ListView，GridView，SharedPreferences存，读数据，存取文本，assets文件)
效果: 1.点击图标进入页面二 2.页面2图片暂停显示5秒进入页面三 3.点击页面三登陆按钮,打开登陆对话框,输入密码进入页面四点击下载按钮,显示水平进度条点击保存和获取用户名和密码进入页面六 ...
kafka操作清单
1. 查看topic个数 ./kafka-topics.,dwtest-data3:,dwtest-data4: 2. 查看topic的生产者与消费者消息 ./kafka-topics.,dwtest ...
Redis Key 过期策略
redis 官方提供的 conf https://raw.github.com/antirez/redis/2.2/redis.conf 中6中过期策略的具体方式.redis 中的默认的过期策略是vo ...
2012关闭ECN
Windows Server 2012 关闭TCP ECN (2014-03-20 18:22:42) 转载▼ 标签: it 分类: windows
11.0592M晶振与12M晶振
标准的51单片机晶振是1.2M-12M,一般由于一个机器周期是12个时钟周期,所以先12M时,一个机器周期是1US,好计算,而且速度相对是最高的(当然现在也有更高频率的单片机). 11.0592M是因 ...
Jquery与.net MVC结合，通过Ajax
在工作中做了这么一个东西. Html端: @using Test.fh.Project.Storefront.ViewModels @using Test.fh.Project.Storefront. ...
[oracle] 重要服务启动与停止命令行
① 控制台服务[em control] 启动:emctl start dbconsole 停止:emctl stop dbconsole ② 监听器服务[listener control] 启动:ls ...
android BroadCastRecevier笔记
学习android的Broadcast,笔记记录于此. BroadCastRecevier用于接受其他应用发送的广播. BroadCastReceiver工作,需要2步. 创建Broadcast Re ...

Hadoop DBOutputFormat的使用

Hadoop DBOutputFormat的使用的更多相关文章

随机推荐

热门专题