Hadoop集成

长期以来，我每开个系列，只有兴趣写一篇，很难持之与恒。为了克服这个长久以来的性格弱点，以及梳理工作半年的积累。最近一个月会写两篇关于Mongo在地理大数据方面的实践和应用，一篇关于推荐系统的初期准备过程，一篇用户行为矩阵的可视化。希望能够立言为证，自我监督。

1.驱动准备

言归正传，前文MongoDB集群部署完毕之后，CRUD就是主要需求。NoSQL与普通关系数据库不同的是，避免采用ORM框架对数据库做操作，这样会带来明显的性能下降[1]。使用原生的Driver是一个较为合理的选择，Mongo支持的语言非常多，包括JS,Java,C,C++,Python,Scala等[2]。

如果是单纯的MongoDB项目，我们会用NodeJS Driver，方便快捷，示例规范，值得推荐。在本文我使用Java Driver，主要是集成Hadoop工程方便。同时还会用到Mongo Hadoop Adapter 可以选择到Github 下载源码编译，或者直接根据自己Hadoop集群版本选择下载Jar包，添加到Hadoop安装目录的lib文件夹下[3]。但是在不少公有云平台上，普通用户是没有修改Hadoop系统的权限，无法添加Jar包，所以在本文的示例代码中，采用分布式缓存的方法添加这两个Jar包。

2.实现原理与过程

其实Hadoop和MongoDB的集成，很大程度上是将Mongo作为Hadoop的输入和输出源，而Mongo Hadoop Adapter也是主要实现了BSONWritable，MongoInputformat等这些类，也就是说需要自定义Hadoop的序列化类以及输入输出格式。

2.1 Hadoop序列化与反序列化

序列化(serialization)将结构化对象转化为二进制字节流，以便网络传输和写入磁盘。反序列化(deserialization)则是它的逆过程，将字节流转化为结构化对象。分布式系统通常在进程通讯和持久化时候会使用序列化。Hadoop系统节点进程通信使用RPC，该协议存活时间非常短，因此需要其序列化格式具备以下特点：紧凑、快速、可扩展等。Hadoop提供了Writable接口，它定义了对数据的IO流，即需要实现readFields 和 Write两个方法[4]。

2.2 Mongo Adapter的源码实现

Mongo Hadoop Adater所实现的BSONWritable等类,源码实现体现了上述的规范：

//输出

public void write( DataOutput out ) throws IOException{

        BSONEncoder enc = new BasicBSONEncoder();

        BasicOutputBuffer buf = new BasicOutputBuffer();

        enc.set( buf );

        …………

    }

//输入

public void readFields( DataInput in ) throws IOException{

        BSONDecoder dec = new BasicBSONDecoder();

        BSONCallback cb = new BasicBSONCallback();

        // Read the BSON length from the start of the record

       //字节流长度

        byte[] l = new byte[4];

        try {

            in.readFully( l );

            …………

            byte[] data = new byte[dataLen + 4];

            System.arraycopy( l, 0, data, 0, 4 );

            in.readFully( data, 4, dataLen - 4 );

            dec.decode( data, cb );

            _doc = (BSONObject) cb.get();

           ………………

    }

因此我们在编写MapReduce程序的时候可以传递BsonWritable的key,value键值对，而Mongo构建于Bson之上，也就是说可以将MongoDB视为HDFS同性质的存储节点即可。

3. 代码实现

在Mongo-Hadoop网站有数个例子，但是讲得不够详细，本文主要对它的金矿产量的例子做一个补充。完整的Hadoop项目一般包括Mapper,Reduceer,Job三个Java Class,以及一个一个配置文件(configuration.xml)来定义项目的输入输出等。Mongo-Hadoop项目会多一个mongo-defaults.xml，当然可以将两者融合起来。

3.1 数据准备

从github中下载源码包，它会包含examples/treasury_yield/src/main/resources/yield_historical_in.json文件，将该json文件上传到Mongo所在的服务器，使用以下命令将它导入Mongo的testmr数据库中的example collection中。

mongoimport --host 127.0.0.1 --port 27017 -d testmr -c example --file ./yield_historical_in.json

查看一下数据结构

use testmr

db.example.find().limit(1).pretty()

如下：

{

  "_id": ISODate("1990-01-25T19:00:00-0500"),

  "dayOfWeek": "FRIDAY", "bc3Year": 8.38,

  "bc10Year": 8.49,

  …

}

3.2 Mapper和Reducer还有Job以及mongo-defaults.xml

Mapper是从Mongo中读取BSONObject

public class MongoTestMapper extends Mapper<Object,BSONObject, IntWritable, DoubleWritable>

以及处理读过来的<key,value>键值对，并发到Reducer中汇总计算。注意value的类型。

public void map(final Object pkey, final BSONObject pvalue,final Context context)

        {

            final int year = ((Date)pvalue.get("_id")).getYear()+1990;

            double bdyear  = ((Number)pvalue.get("bc10Year")).doubleValue();

            try {

                context.write( new IntWritable( year ), new DoubleWritable( bdyear ));

            } catch (IOException e) {

                // TODO Auto-generated catch block

                e.printStackTrace();

            } catch (InterruptedException e) {

                // TODO Auto-generated catch block

                e.printStackTrace();

            }

        }

Reducer会接受Mapper传过来的键值对

public class MongoTestReducer extends Reducer<IntWritable,DoubleWritable,IntWritable,BSONWritable>

进行计算并将结果写入MongoDB.请注意输出的Value的类型是BSONWritable.

public void reduce( final IntWritable pKey,

            final Iterable<DoubleWritable> pValues,

            final Context pContext ) throws IOException, InterruptedException{

      int count = 0;

      double sum = 0.0;

      for ( final DoubleWritable value : pValues ){

          sum += value.get();

          count++;

      }

      final double avg = sum / count;

        BasicBSONObject out = new BasicBSONObject();

        out.put("avg", avg);

        pContext.write(pKey, new BSONWritable(out));

    }

Job作为MapReudce主类，主要使用DistributedCache分布式缓存来添加驱动包，并定义了任务的输入配置等。如下所示：

//Using Distribute Cache,call it before job define.

        DistributedCache.createSymlink(conf);

//………………

//Using DistributedCache to add Driver Jar File

        DistributedCache.addFileToClassPath(new Path("/user/amap/data/mongo/mongo-2.10.1.jar"), conf);

        DistributedCache.addFileToClassPath(new Path("/user/amap/data/mongo/mongo-hadoop-core_cdh4.3.0-1.1.0.jar"), conf);

// job conf

        Job job = new Job(conf,"VentLam:Mongo-Test-Job");

mongo-defaults.xml 配置文件中定义了非常多的参数，我们只需要修改输入输出URI

   <!-- If you are reading from mongo, the URI -->

    <name>mongo.input.uri</name>

    <value>mongodb://127.0.0.1/testmr.example</value>

  </property>

  <property>

    <!-- If you are writing to mongo, the URI -->

    <name>mongo.output.uri</name>

    <value>mongodb://127.0.0.1/testmr.mongotest</value>

  </property>

  <property>

将整个java项目打包为名为mongotest的jar包，上传到Hadoop集群，执行命令：

hadoop jar mongotest.jar org.ventlam.MongoTestJob

以后会将我的博客涉及到源码都发布在https://github.com/ventlam/BlogDemo 中，这篇文章对应的是mongohadoop文件夹。

4.参考文献

[1] What the overhead of Java ORM for MongoDB

http://stackoverflow.com/questions/10600162/what-the-overhead-of-java-orm-for-mongodb

[2] MongoDB Drivers and Client Libraries

http://docs.mongodb.org/ecosystem/drivers/

[3]Getting Started with Hadoop

http://docs.mongodb.org/ecosystem/tutorial/getting-started-with-hadoop/

[4] Interface Writable http://hadoop.apache.org/docs/stable/api/

Hadoop集成的更多相关文章

Elasticsearch与Hadoop集成大数据处理介绍
传统大数据处理现代数据架构 Hadoop在20业务场景的应用 DataLake A data lake is a system or repository of data stored in its ...
MongoDB集群与LBS应用系列(二)--与Hadoop集成
长期以来,我每开个系列,只有兴趣写一篇,很难持之与恒.为了克服这个长久以来的性格弱点,以及梳理工作半年的积累.最近一个月会写两篇关于Mongo在地理大数据方面的实践和应用,一篇关于推荐系统的初期准备过 ...
【Hadoop离线基础总结】Hue与Hadoop集成
目录 1.更改所有hadoop节点的core-site.xml配置 2.更改所有hadoop节点的hdfs-site.xml 3.重启hadoop集群 4.停止hue的服务,并继续配置hue.ini ...
在虚拟机下安装hadoop集成环境（centos7+hadoop-2.6.4+jdk-7u79）
[1]64为win7系统,用virtualbox建立linux虚拟机时,为什么没有64位的选项? 百度 [2]在virtualbox上安装centos7 [3]VirtualBox虚拟机网络环境解析和 ...
elasticsearch和hadoop集成，gateway.type hdfs设置
配置elasticsearch的存储路径为hdfs需要两步,安装插件 elasticsearch-hadoop,在联网的情况下在命令窗口运行:plugin -install elasticsearch ...
eclipse与hadoop集成，运行wordCount1
搭好了hadoop集群之后,就该使用它了第一步:下载hadoop eclipse的插件,将它放到eclipse\plugins的目录下,然后重启eclipse,点击windows->show ...
Hadoop总结篇之一------开篇
从今天开始新的系列:Hadoop总结篇之前的hadoop学习篇由于是学习过程中随手记下来的一些内容,不具有系统性.所以在这个系列中,将凭着这段时间的研究心得,来记录一些自认为比较重要的东西. 本系列 ...
Hadoop 在windows 上伪分布式的安装过程
第一部分:Hadoop 在windows 上伪分布式的安装过程安装JDK 1.下载JDK http://www.oracle.com/technetwork/java/javaee/d ...
成都大数据Hadoop与Spark技术培训班
成都大数据Hadoop与Spark技术培训班中国信息化培训中心特推出了大数据技术架构及应用实战课程培训班,通过专业的大数据Hadoop与Spark技术架构体系与业界真实案例来全面提升大数据工程师 ...

随机推荐

Bringing up interface eth0: Device eth0 does not seem to be present, delaying initialization
跑 service network restart NIC出现无法启动,他说,没有发现 Bringing up interface eth0: Device eth0 does not seem t ...
React.js初探（一）
前端框架多如牛毛的今天,团队的技术选型很重要,没有最好的,只有最合适的,这话早已经被说烂了. 但是作为一个有追求的前端,对新技术的敏感以及尝试心理还是要有的. 虽然React已经火的不行了,但由于自己 ...
兼容Firefox和IE的onpropertychange事件oninput
原文兼容Firefox和IE的onpropertychange事件oninput onpropertychange能够捕获每次输入值的变化.例如:对象的value值被改变时,onpropertych ...
Code Forces 414B 很不错的双手，以促进合规
http://codeforces.com/problemset/problem/414/B 题目挺不错的.留个纪念,活动脑筋不错的题目 #include<iostream> #inclu ...
hdoj 1226 超级password 【隐图BFS】
称号:hdoj 1226 超级password 分析:这题属于隐式图搜索,状态不是非常明显,须要自己建立. 事实上搜索说白了就是暴力. 这个题目就是,首先对给出的能够组成的全部的数依次枚举.长度从小到 ...
MVC中实现多按钮提交（转）
有时候会遇到这种情况:在一个表单上需要多个按钮来完成不同的功能,比如一个简单的审批功能. 如果是用webform那不需要讨论,但asp.net mvc中一个表单只能提交到一个Action处理,相对比较 ...
ReactJS.NET 开发
初探ReactJS.NET 开发 ReactJS通常也被称为"React",是一个刚刚在这场游戏中登场的新手.它由Facebook创建,并在2013年首次发布.Facebook ...
通过SMTP协议来发送邮件
简单邮件传输协议 (Simple Mail Transfer Protocol, SMTP) 是事实上的在Internet传输email的标准. SMTP是一个相对简单的基于文本的协议.在其之上指定了 ...
C_数据结构
线性结构线性结构的特点是:在数据元素的飞空有限集中,(1)存在唯一的一个被称作“第一个”的数据元素:(2) 存在唯一一个被称做“最后一个”的数据元素:(3)除第一个外,集合中的每一个元素都只有一个前 ...
批处理命令篇－－配置免安装mysql 5.6.22，以及1067错误的一个解决方法
mysql 服务启动出现1067错误的一个解决方法: 当服务启动出现1067错误时,可查看“windows 事件查看器”,发现类似错误提示 Can't find messagefile 'F:\ ...

Hadoop集成

Hadoop集成

1.驱动准备

2.实现原理与过程

2.1 Hadoop序列化与反序列化

2.2 Mongo Adapter的源码实现

3. 代码实现

3.1 数据准备

3.2 Mapper和Reducer还有Job以及mongo-defaults.xml

4.参考文献

Hadoop集成的更多相关文章

随机推荐

热门专题