基于Hadoop 2.6.0运行数字排序的计算

　　上个博客写了Hadoop2.6.0的环境部署，下面写一个简单的基于数字排序的小程序，真正实现分布式的计算，原理就是对多个文件中的数字进行排序，每个文件中每个数字占一行，排序原理是按行读取后分块进行排序，最后对块进行合并，通俗来说就是首先对小于100的数据范围进行排序，然后对100-1000之间的数据进行排序，最后对大于1000的数据进行排序，最终这3块合成之后也一定是按顺序排列的，代码如下：

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.Partitioner;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class Sort {

    public static class Map extends

            Mapper<Object, Text, IntWritable, IntWritable> {

        private static IntWritable data = new IntWritable();

        public void map(Object key, Text value, Context context)

                throws IOException, InterruptedException {

            String line = value.toString();

            data.set(Integer.parseInt(line));

            context.write(data, new IntWritable(1));

        }

    }

    public static class Reduce extends

            Reducer<IntWritable, IntWritable, IntWritable, IntWritable> {

        private static IntWritable linenum = new IntWritable(1);

        public void reduce(IntWritable key, Iterable<IntWritable> values,

                Context context) throws IOException, InterruptedException {

            for (IntWritable val : values) {

                context.write(linenum, key);

                linenum = new IntWritable(linenum.get() + 1);

            }

        }

    }

    public static class Partition extends Partitioner<IntWritable, IntWritable> {

        @Override

        public int getPartition(IntWritable key, IntWritable value,

                int numPartitions) {

            int MaxNumber = 65223;

            int bound = MaxNumber / numPartitions + 1;

            int keynumber = key.get();

            for (int i = 0; i < numPartitions; i++) {

                if (keynumber < bound * i && keynumber >= bound * (i - 1))

                    return i - 1;

            }

            return 0;

        }

    }

    /**

     * @param args

     */

    public static void main(String[] args) throws Exception {

        // TODO Auto-generated method stub

        Configuration conf = new Configuration();

        String[] otherArgs = new GenericOptionsParser(conf, args)

                .getRemainingArgs();

        if (otherArgs.length != 2) {

            System.err.println("Usage WordCount <int> <out>");

            System.exit(2);

        }

        Job job = new Job(conf, "Sort");

        job.setJarByClass(Sort.class);

        job.setMapperClass(Map.class);

        job.setPartitionerClass(Partition.class);

        job.setReducerClass(Reduce.class);

        job.setOutputKeyClass(IntWritable.class);

        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

        System.exit(job.waitForCompletion(true) ? 0 : 1);

    }

}

　　将源文件上传到服务器后，进行编译，hadoop2.6.0的编译方式和之前的hadoop1.2.1不太一样，这次需要引入3个jar文件分别是：

　　share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6.0.jar

　　share/hadoop/common/hadoop-common-2.6.0.jar

　　share/hadoop/common/lib/commons-cli-1.2.jar

　　编译命令这里为：

javac -classpath ../share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6..jar:../share/hadoop/common/hadoop-common-2.6..jar:../share/hadoop/common/lib/commons-cli-1.2.jar Sort.java

　　如果忽略要警告可以添加-Xlint:deprecation参数进行编译：

javac -classpath ../share/hadoop/mapreduce/hadoop-mapreduce-client-core-2.6..jar:../share/hadoop/common/hadoop-common-2.6..jar:../share/hadoop/common/lib/commons-cli-1.2.jar -Xlint:deprecation Sort.java

　　编译成功之后打包操作：

jar -cvf sort.jar *.class

　　打成sort.jar之后建立几个文件，格式就如下图所示：

　　然后上传到HDFS文件系统之后，可以用hadoop来跑一下：

hadoop jar sort.jar Sort /sort /sortoutput

　　注意：输出目录，不能使用原来的，如果原来存在一个目录，不管是空的还是非空的，那么hadoop都会报错，所以应该指定一个不存在的目录，让hadoop去新建他

　　等运行完毕，然后查看输出就行了：

hdfs dfs -cat /sortoutput/*

　　这样就简单的使用hadoop平台以分布式的方式运行了java应用

基于Hadoop 2.6.0运行数字排序的计算的更多相关文章

基于Hadoop 2.2.0的高可用性集群搭建步骤（64位）
内容概要: CentSO_64bit集群搭建, hadoop2.2(64位)编译,安装,配置以及测试步骤新版亮点: 基于yarn计算框架和高可用性DFS的第一个稳定版本. 注1:官网只提供32位re ...
6、Hadoop 2.6.0 运行
运行方式 Local (Standalone) Mode Pseudo-Distributed Mode Fully-Distributed Mode Standalone Operation $ s ...
hadoop 2.2.0集群安装
相关阅读: hbase 0.98.1集群安装本文将基于hadoop 2.2.0解说其在linux集群上的安装方法,并对一些重要的设置项进行解释,本文原文链接:http://blog.csdn.net ...
Android6.0运行时权限(基于RxPermission开源库)
版权声明:本文为HaiyuKing原创文章,转载请注明出处! 前言在6.0以前的系统,都是权限一刀切的处理方式,只要用户安装,Manifest申请的权限都会被赋予,并且安装后权限也撤销不了. And ...
【转】阿里巴巴技术专家杨晓明：基于Hadoop技术进行地理空间分析
转自:http://www.csdn.net/article/2015-01-23/2823687-geographic-space-base-Hadoop [编者按]交通领域正产生着海量的车辆位置点 ...
Ubuntu14.04用apt在线/离线安装CDH5.1.2[Apache Hadoop 2.3.0]
目录 [TOC] 1.CDH介绍 1.1.什么是CDH和CM? CDH一个对Apache Hadoop的集成环境的封装,可以使用Cloudera Manager进行自动化安装. Cloudera-Ma ...
基于hadoop的数据仓库工具：Hive概述
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行.其优点是学习成本低,可以通过类 ...
Hive -- 基于Hadoop的数据仓库分析工具
Hive是一个基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库 ...
基于Hadoop Sequencefile的小文件解决方案
一.概述小文件是指文件size小于HDFS上block大小的文件.这样的文件会给hadoop的扩展性和性能带来严重问题.首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每 ...

随机推荐

.NET安全审核检查表
书籍名称:Web安全设计之道 -.NET代码安全,界面漏洞防范与程序优化 .NET安全审核检查表检查项任务描述设计环节 Security descisions should no ...
zookeeper原理（转）
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等.Zookeeper是hadoop的一个子项目,其 ...
JMS的可靠性
---------------------------------------------------------------------------------------------------- ...
Inside the c++ object module 阅读摘要
这本书是 Stanley B. Lippman于1996年所写,而最早的c++标准是 ISO/IEC 14882:1998[18],即C++98. Chapter 1: Object Lessons ...
TCP的流模式与UDP的报文模式对比
1 案例背景在学习TCP-IP协议详解卷一时,读到介绍TCP协议的部分,发现TCP的首部是没有报文总长度字段的,而在UDP中是有的,对这个问题的思考引出了两者之间的区别. 2 案例 ...
CSS这些代码你都不会，你还有什么好说的！！！
都说自己工资低的,先看看这些代码你能写出来不?这些都不会,你还嫌工资? 很多人抱怨工资低,觉得自己大材小用,但你真的是才不是柴嘛?? 经常听到一些人,遇到不会的问百度,如果这样,我们都不用学习了,天天 ...
Ruby学习之module
我们可以认为module是一个专门存放一系列方法和常量的工具箱. module和class非常像, 只是module不能创建实例也不能有子类, 它们仅仅能存放东西. 例如: module Circle ...
Swift2.1 语法指南——扩展
原档:https://developer.apple.com/library/prerelease/ios/documentation/Swift/Conceptual/Swift_Programmi ...
C#利用Web Service实现短信发送（转）
通过编程方式实现短信息的发送对很多人来说是一件比较烦杂的事情,目前一般的解决方法是通过计算机和手机的连线,通过可对手机编程的语言编写相关的手机短信息程序来实现,而这种方法对于一般人来说是很难达到的,因 ...
Code First02---CodeFirst配置实体与数据库映射的两种方式
Code First有两种配置数据库映射的方式,一种是使用数据属性DataAnnotation,另一种是Fluent API. 这两种方式分别是什么呢?下面进行一一解释: DataAnnotation ...

基于Hadoop 2.6.0运行数字排序的计算

基于Hadoop 2.6.0运行数字排序的计算的更多相关文章

随机推荐

热门专题