Hadoop自定义分组Group

matadata：

hadoop  a

spark   a

hive    a

hbase   a

tachyon a

storm   a

redis   a

自定义分组

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.WritableComparable;

import org.apache.hadoop.io.WritableComparator;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.GenericOptionsParser;

public class MyGroup {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

		Configuration conf = new Configuration();

		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

		if(otherArgs.length!=2){

			System.err.println("Usage databaseV1 <inputpath> <outputpath>");

		}

		Job job = Job.getInstance(conf, MyGroup.class.getSimpleName() + "1");

		job.setJarByClass(MyGroup.class);

		job.setMapOutputKeyClass(Text.class);

		job.setMapOutputValueClass(Text.class);

		job.setOutputKeyClass(Text.class);

		job.setOutputValueClass(Text.class);

		job.setMapperClass(MyMapper1.class);

		job.setGroupingComparatorClass(MyGroupComparator.class);

		job.setReducerClass(MyReducer1.class);

		job.setInputFormatClass(TextInputFormat.class);

		job.setOutputFormatClass(TextOutputFormat.class);

		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));

		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

		job.waitForCompletion(true);

	}

	public static class MyMapper1 extends Mapper<LongWritable, Text, Text, Text>{

		@Override

		protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, Text>.Context context)

				throws IOException, InterruptedException {

			String[] spl=value.toString().split("\t");

			context.write(new Text(spl[0].trim()), new Text(spl[1].trim()));

		}

	}

	public static class MyReducer1 extends Reducer<Text, Text, Text, Text>{

		@Override

		protected void reduce(Text k2, Iterable<Text> v2s, Reducer<Text, Text, Text, Text>.Context context)

				throws IOException, InterruptedException {

			Long count=0L;

			for (@SuppressWarnings("unused") Text v2 : v2s) {

				count++;

				context.write(new Text("in--"+k2), new Text(count.toString()));

			}

			context.write(new Text("out--"+k2), new Text(count.toString()));

		}

	}

	public static class MyGroupComparator extends WritableComparator{

		public MyGroupComparator(){

			super(Text.class,true);

		}

		@SuppressWarnings("rawtypes")

		public int compare(WritableComparable a, WritableComparable b) {

			Text p1 = (Text) a;

			Text p2 = (Text) b;

			p1.compareTo(p2);

			return  0;

		  }

	}

}

结果

in--hadoop      1

in--hbase       2

in--hive        3

in--redis       4

in--spark       5

in--storm       6

in--tachyon     7

out--tachyon    7

然后看下默认分组

public static class MyGroupComparator extends WritableComparator{

		public MyGroupComparator(){

			super(Text.class,true);

		}

		@SuppressWarnings("rawtypes")

		public int compare(WritableComparable a, WritableComparable b) {

			Text p1 = (Text) a;

			Text p2 = (Text) b;

			return p1.compareTo(p2);

		  }

	}

结果

in--hadoop      1

out--hadoop     1

in--hbase       1

out--hbase      1

in--hive        1

out--hive       1

in--redis       1

out--redis      1

in--spark       1

out--spark      1

in--storm       1

out--storm      1

in--tachyon     1

out--tachyon    1

通过对比，自定义分组就很容易理解了

Hadoop自定义分组Group的更多相关文章

2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现
我想得到按流量来排序,而且还是倒序,怎么达到实现呢? 达到下面这种效果, 默认是根据key来排, 我想根据value里的某个排, 解决思路:将value里的某个,放到key里去,然后来排下面,开始w ...
Hadoop mapreduce自定义分组RawComparator
本文发表于本人博客. 今天接着上次[Hadoop mapreduce自定义排序WritableComparable]文章写,按照顺序那么这次应该是讲解自定义分组如何实现,关于操作顺序在这里不多说了,需 ...
【Hadoop】Hadoop MR 自定义分组 Partition机制
1.概念 2.Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3.代码示例 FlowBean package com.ares.hadoop.mr.flowgroup; ...
关于MapReduce中自定义分组类（三）
Job类 /** * Define the comparator that controls which keys are grouped together * for a single ...
Table.Group分组…Group（Power Query 之 M 语言）
数据源: 10列55行数据,其中包括含有重复项的"部门"列和可求和的"金额"列. 目标: 按"部门"列进行分组,显示各部门金额小计. 操作过 ...
Oracle 表分组 group by和模糊查询like
分组group by写法 select 字段名 from 表名 group by 字段名查询这个字段名里的种类分组后可以加聚合函数select 字段名,聚合函数 from 表名 group by 字 ...
大数据量场景下storm自定义分组与Hbase预分区完美结合大幅度节省内存空间
前言:在系统中向hbase中插入数据时,常常通过设置region的预分区来防止大数据量插入的热点问题,提高数据插入的效率,同时可以减少当数据猛增时由于Region split带来的资源消耗.大量的预分 ...
storm自定义分组与Hbase预分区结合节省内存消耗
Hbas预分区在系统中向hbase中插入数据时,常常通过设置region的预分区来防止大数据量插入的热点问题,提高数据插入的效率,同时可以减少当数据猛增时由于Region split带来的资源消耗. ...
MySQL数据分组Group By 和 Having
现有以下的学生信息表: 若果现在想计算每个班的平均年龄,使用where的操作如下: SELECT Cno AS 班级, AVG(Sage) AS 平均年龄 FROM stu ; 这样的话,有多少个班就 ...

随机推荐

Telerik UI For WinForms--关于RadGridView的列排序
在使用RadGridView绑定数据后,我希望属性的显示顺序按继承层次显示,但实际是相反的.下面示例两个类: public class A { public string Astr { get; se ...
vim 使用说明
=========================================================本使用说明与把VIM打造成IDE 配套======================= ...
Scalaz（10）－ Monad：就是一种函数式编程模式－a design pattern
Monad typeclass不是一种类型,而是一种程序设计模式(design pattern),是泛函编程中最重要的编程概念,因而很多行内人把FP又称为Monadic Programming.这其中 ...
pm2 配置
---恢复内容开始--- 1. ecosystem.json { "apps": [ { "name": "name", // 项目名 &q ...
viewport ——视区概念，为自适应网页设计
什么是Viewport 手机浏览器是把页面放在一个虚拟的“窗口”(viewport)中,通常这个虚拟的“窗口”(viewport)比屏幕宽,这样就不用把每个网页挤到很小的窗口中(这样会破坏没有针对手机 ...
spring MVC @Resource不支持Lazy加载
今天迁一系统时发现有个bean使用@Resource注入了另外一个bean,这个被注入的bean是将被deprecated的类,而且只有一两个功能使用到,为了先调整进行测试,增加了@Lazy注解,启动 ...
【转】从MVC到前后端分离
1. 理解MVC MVC是一种经典的设计模式,全名为Model-View-Controller,即模型-视图-控制器. 其中,模型是用于封装数据的载体,例如,在Java中一般通过一个简单的POJO(P ...
jQuery+fullPage.js演示10种全屏滚动
基本演示背景演示循环演示回调函数演示绑定菜单演示项目导航演示自动滚动 slide自动滚动响应式下载地址实例代码 <!DOCTYPE html> <html lang ...
赞！jsPDF – 基于 HTML5 的强大 PDF 生成工具
jsPDF 是一个基于 HTML5 的客户端解决方案,用于生成各种用途的 PDF 文档.使用方法很简单,只要引入 jsPDF 库,然后调用内置的方法就可以了.浏览器兼容性: IE 10, Firefo ...
完美卸载oracle11g步骤
完美卸载oracle11g步骤:1. 开始->设置->控制面板->管理工具->服务停止所有Oracle服务.2. 开始->程序->Oracle - OraHome ...

Hadoop自定义分组Group

Hadoop自定义分组Group的更多相关文章

随机推荐

热门专题