Hadoop程序基础模板

分布式编程相对复杂，而Hadoop本身蒙上大数据、云计算等各种面纱，让很多初学者望而却步。可事实上，Hadoop是一个很易用的分布式编程框架，经过良好封装屏蔽了很多分布式环境下的复杂问题，因此，对普通开发者来说很容易，容易到可以照葫芦画瓢。

大多数Hadoop程序的编写可以简单的依赖于一个模板及其变种。当编写一个新的MapReduce程序时，我们通常采用一个现有的MapReduce程序，通过修改达到我们希望的功能就行了。对于写大部分的Hadoop程序来说几乎就是照葫芦画瓢。这个瓢到底是什么样子呢？还是和小讲一起看看吧。

使用 Java 语言编写 MapReduce 非常方便，因为 Hadoop 的 API 提供了 Mapper 和 Reducer 抽象类，对开发人员来说，只需要继承这两个抽象类，然后实现抽象类里面的方法就可以了。

有一份CSV格式专利引用数据，超过1600万行，某几行如下：
"CITING(引用)","CITED(被引用)"
3858241,956203
3858241,1324234
3858241,3398406
3858242,1515701
3858242,3319261
3858242,3707004
3858243,1324234
2858244,1515701
...
对每个专利，我们希望找到引用它的专利并合并，输出如下：
1324234 3858243,3858241
1515701 2858244,3858242
3319261 3858242
3398406 3858241
3707004 3858242
956203 3858241
...
下边的程序就实现了一个这样的功能。很强大的功能，代码就这么少，没想到吧？？？

下面是一个典型的Hadoop程序模板

package com.dajiangtai.hadoop.junior;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.input.KeyValueTextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

/**

 * Hadoop程序基础模板

 */

public class HadoopTpl extends Configured implements Tool {

    public static class   MapClass  extends Mapper< Text,Text,Text,Text> {

        public void map(Text key, Text value, Context context) throws IOException, InterruptedException {    

            context.write(value, key);

        }

    }

    public static class   ReduceClass extends Reducer< Text, Text, Text, Text> {

        public void reduce(Text key, Iterable< Text> values, Context context)  throws IOException, InterruptedException {

            String csv = "";

            for(Text val:values) {

                if(csv.length() > 0)

                    csv += ",";

                csv += val.toString();

            }

            context.write(key, new Text(csv));

        }

    }

    @Override

    public int   run(String[] args) throws Exception {

        Configuration conf = getConf();    //读取配置文件

        conf.set("mapreduce.input.keyvaluelinerecordreader.key.value.separator", ",");

        Job job = new Job(conf, "HadoopTpl");//新建一个任务

        job.setJarByClass(HadoopTpl.class);//主类

        Path in = new Path(args[0]);

        Path out = new Path(args[1]);

        FileSystem hdfs = out.getFileSystem(conf);

        if (hdfs.isDirectory(out)) {

            hdfs.delete(out, true);

        }

        FileInputFormat.setInputPaths(job, in);//文件输入

        FileOutputFormat.setOutputPath(job, out);//文件输出

        job.setMapperClass(MapClass.class);//Mapper

        job.setReducerClass(ReduceClass.class);//Reducer

        job.setInputFormatClass(KeyValueTextInputFormat.class);//文件输入格式

        job.setOutputFormatClass(TextOutputFormat.class);//文件输出格式

        job.setOutputKeyClass(Text.class);//设置作业输出值 Key 的类

        job.setOutputValueClass(Text.class);//设置作业输出值 Value 的类 

        System.exit(job.waitForCompletion(true)?0:1);//等待作业完成退出

        return 0;

    }

    /**

     * @param args 输入文件、输出路径，可在Eclipse的Run Configurations中配Arguments如：

     * hdfs://single.hadoop.dajiangtai.com:9000/junior/patent.txt

     * hdfs://single.hadoop.dajiangtai.com:9000/junior/patent-out/

     */

    public static void   main(String[] args) {

        try {

            int res = ToolRunner.run(new Configuration(), new HadoopTpl(), args);

            System.exit(res);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}

可以想像，一份超过1600万的数据，实现这样一个功能，如果我们自己写算法处理，效率和资源耗费很难想像。可使用Hadoop处理起来就是这么简单。是不是很强大？加紧学习吧，少年！

Hadoop程序基础模板的更多相关文章

hadoop rpc基础
第一部分: hadoop rpc基础 RPC,远程程序调用,分布式计算中C/S模型的一个应用实例. 同其他RPC框架一样,Hadoop分为四个部分: 序列化层:支持多种框架实现序列化与反序列化函数调 ...
IntelliJ IDEA + Maven环境编写第一个hadoop程序
1. 新建IntelliJ下的maven项目点击File->New->Project,在弹出的对话框中选择Maven,JDK选择你自己安装的版本,点击Next 2. 填写Maven的Gr ...
运行第一个Hadoop程序，WordCount
系统: Ubuntu14.04 Hadoop版本: 2.7.2 参照http://www.cnblogs.com/taichu/p/5264185.html中的分享,来学习运行第一个hadoop程序. ...
Windows Phone 8初学者开发—第10部分：数据绑定应用程序和透视应用程序项目模板简介
原文 Windows Phone 8初学者开发—第10部分:数据绑定应用程序和透视应用程序项目模板简介原文地址: http://channel9.msdn.com/Series/Windows-Ph ...
一个完整的hadoop程序开发过程
目的说明hadoop程序开发过程前提条件 ubuntu或同类OS java1.6.0_45 eclipse-indigo hadoop-0.20.2 hadoop-0.20.2-eclipse-p ...
小程序基础知识点讲解-WXML + WXSS + JS，生命周期
小程序基础小程序官方地址,小程序开发者工具,点击此处下载.在微信小程序中有一个配置文件project.config.json,此文件可以让开发者在不同设备中进行开发. 微信小程序共支持5种文件,wx ...
Hadoop框架基础（三）
** Hadoop框架基础(三) 上一节我们使用eclipse运行展示了hdfs系统中的某个文件数据,这一节我们简析一下离线计算框架MapReduce,以及通过eclipse来编写关于MapReduc ...
Hadoop框架基础（一）
** Hadoop框架基础(一) 学习一个新的东西,传统而言呢,总喜欢漫无目的的扯来扯去,比如扯扯发展史,扯扯作者是谁,而我认为这些东西对于刚开始接触,并以开发为目的学者是没有什么帮助的,反而 ...
【Hadoop离线基础总结】oozie的安装部署与使用
目录简单介绍概述架构安装部署 1.修改core-site.xml 2.上传oozie的安装包并解压 3.解压hadooplibs到与oozie平行的目录 4.创建libext目录,并拷贝依赖包 ...

随机推荐

Python 爬虫实战5 模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 本篇内容 python模拟登录淘宝网页获取登录用户的所有订单详情 ...
dm8148 开发之---互斥量、条件量、枷锁、互斥枷锁
int OSA_semCreate(OSA_SemHndl *hndl, Uint32 maxCount, Uint32 initVal){ pthread_mutexattr_t mutex_att ...
控制器post参数接收
一.post对象 1.后台c# public class TestController : ApiController { [HttpPost] public string SaveData1(Tb_ ...
【BZOJ2325】[ZJOI2011]道馆之战线段树+树链剖分
[BZOJ2325][ZJOI2011]道馆之战 Description 口袋妖怪(又名神奇宝贝或宠物小精灵)红/蓝/绿宝石中的水系道馆需要经过三个冰地才能到达馆主的面前,冰地中的每一个冰块都只能经过 ...
php5.4新特性实践
本机安装的是wampserver2.2e-php5.4.3-httpd2.2.22-mysql5.5.24-32b.exe集成包自带了php5.4 1. 数组写法定义一个数组过去: $arr = ...
java 对象与二进制互转
来自 : http://blog.csdn.net/luckyzhoustar/article/details/50402427 /** * @FileName: ByteToObject.java ...
CentOS 7.4 下设置定时任务
cron介绍我们经常使用的是crontab命令是cron table的简写,它是cron的配置文件,也可以叫它作业列表,我们可以在以下文件夹内找到相关配置文件. /var/spool/cron/ 目 ...
Js用户引导插件bootstrap-tour
1.demo直接贴上来了,有什么不懂的,直接去官网上看,地址:http://bootstraptour.com/. 2.这个bootstrap-tour插件的版本是v0.12.0,复制下来代码,引入库 ...
修改Linux的基本配置（修改主机名修改ip地址安装JDK/Tomcat/MySQL等等）
(一)基本操作修改修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=server1.itcast.cn 修改ip地址 vi /etc/s ...
判断数A和数B中有多少个位不相同
1. A & B,得到的结果C中的1的位表明了A和B中相同的位都是1的位:2. A | B, 得到的结果D中的1的位表明了A和B在该位至少有一个为1的位,包含了A 与 B 都是1的位数,经过前 ...

Hadoop程序基础模板

Hadoop程序基础模板的更多相关文章

随机推荐

热门专题