map端join

package my.hadoop.hdfs.mapreduceJoin;

import java.io.BufferedReader;

import java.io.FileInputStream;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.URI;

import java.net.URISyntaxException;

import java.util.HashMap;

import java.util.Map;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.FileSplit;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 /**

  * 当商品表比较小只有几十个(比如小米手机)，但是订单表比较大(一年卖几千万)此时

  * 如果将每个产品用一个reduce处理时那就可能出现小米书包只有几万，数据，但是小米手机就有100万的数据，

  * 出现负载不均衡，数据倾斜的情况。

  * @author lq

  *

  */

public class MapsideJoin {

    public static class FindFriendMapper extends

            Mapper<LongWritable, Text, AllInfoBean, NullWritable> {

        FileSplit fileSplit = null;

        String filename = null;

        Map<String,String> pdinfo = new HashMap<String,String>();

        @Override

        protected void setup(

                Mapper<LongWritable, Text, AllInfoBean, NullWritable>.Context context)

                throws IOException, InterruptedException {

            //文件和程序已经在同一个路径（splist。xml。wc，）

        BufferedReader br = new BufferedReader(new InputStreamReader(new FileInputStream("product")));

        String line  = null;

        while ((line  = br.readLine())!=null){

            String[] split = line.split(",");

            pdinfo.put(split[0], split[1]);

        }

        // 关闭流

        br.close();

        }

        AllInfoBean bean = new AllInfoBean();

        @Override

        protected void map(LongWritable key, Text value, Context context)

                throws IOException, InterruptedException {

            // 获取文件名字的方法

            // 判断用的是哪个文件

                String[] cols = value.toString().split(",");

                bean.setOderid(Integer.parseInt(cols[0]));

                bean.setDate(cols[1]);

                bean.setPid(cols[2]);

                bean.setAmount(Integer.parseInt(cols[3]));

                bean.setPname(pdinfo.get(cols[2])==null? "" : pdinfo.get(cols[2]));

                bean.setPrice("");

                bean.setCategory_id("");

            context.write(bean, NullWritable.get());

        }

    }

 //不要reduce

    /*public static class FindFriendReducer extends

            Reducer<Text, AllInfoBean, AllInfoBean, NullWritable> {

        @Override

        protected void reduce(Text Keyin, Iterable<AllInfoBean> values,

                Context context) throws IOException, InterruptedException {

            for(AllInfoBean bean : values){

                context.write(bean, NullWritable.get());

            }

        }

    }*/

    public static void main(String[] args) throws IOException,

            ClassNotFoundException, InterruptedException, URISyntaxException {

        Configuration configuration = new Configuration();

        Job job = Job.getInstance(configuration);

        job.setJarByClass(MapsideJoin.class);

        job.setMapperClass(FindFriendMapper.class);

        //不指定reduce

        //job.setReducerClass(FindFriendReducer.class);

        //指定最终输出的数据kv类型

        //job.setMapOutputKeyClass(Text.class);

        //job.setMapOutputValueClass(AllInfoBean.class);

        job.setNumReduceTasks(0);//设置不运行reduce

        job.setOutputKeyClass(AllInfoBean.class);

        job.setOutputValueClass(NullWritable.class);

        //第三方jar包使用这个路径指定，本地和hdfs都可以

        //job.addArchiveToClassPath(archive);

        //job

        job.addCacheFile(new URI("hdfs://mini2:9000/Rjoin/dat2/product"));//缓存其他节点

        FileInputFormat.setInputPaths(job, new Path(args[0]));

        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        boolean res = job.waitForCompletion(true);

        System.exit(res ? 0 :1);

    }

}

map端join的更多相关文章

hadoop的压缩解压缩,reduce端join,map端join
hadoop的压缩解压缩 hadoop对于常见的几种压缩算法对于我们的mapreduce都是内置支持,不需要我们关心.经过map之后,数据会产生输出经过shuffle,这个时候的shuffle过程特别 ...
Hadoop_22_MapReduce map端join实现方式解决数据倾斜（DistributedCache）
1.Map端Join解决数据倾斜 1.Mapreduce中会将map输出的kv对,按照相同key分组(调用getPartition),然后分发给不同的reducetask 2.Map输出结果的时候 ...
第2节 mapreduce深入学习：16、17、map端的join算法的实现
map端的join算法,适用于小表join大表的时候,一次性把小表的数据全部装载到内存当中来: 代码: MapJoinMain: package cn.itcast.demo5.mapJoin; im ...
hadoop 多表join：Map side join及Reduce side join范例
最近在准备抽取数据的工作.有一个id集合200多M,要从另一个500GB的数据集合中抽取出所有id集合中包含的数据集.id数据集合中每一个行就是一个id的字符串(Reduce side join要在每 ...
Hadoop.2.x_高级应用_二次排序及MapReduce端join
一.对于二次排序案例部分理解 1. 分析需求(首先对第一个字段排序,然后在对第二个字段排序) 杂乱的原始数据排序完成的数据 a,1 a,1 b,1 a,2 a,2 [排序] a,100 b,6 == ...
Hadoop的Map侧join
写了关于Hadoop下载地址的Map侧join 和Reduce的join,今天我们就来在看另外一种比较中立的Join. SemiJoin,一般称为半链接,其原理是在Map侧过滤掉了一些不需要join的 ...
Hadoop on Mac with IntelliJ IDEA - 10 陆喜恒. Hadoop实战（第2版）6.4.1（Shuffle和排序）Map端内容整理
下午对着源码看陆喜恒. Hadoop实战(第2版)6.4.1 (Shuffle和排序)Map端,发现与Hadoop 1.2.1的源码有些出入.下面作个简单的记录,方便起见,引用自书本的语句都用斜体表 ...
MapReduce在Map端的Combiner和在Reduce端的Partitioner
1.Map端的Combiner. 通过单词计数WordCountApp.java的例子,如何在Map端设置Combiner... 只附录部分代码: /** * 以文本 * hello you * he ...
Hadoop2.4.1 MapReduce通过Map端shuffle（Combiner）完成数据去重
package com.bank.service; import java.io.IOException; import org.apache.hadoop.conf.Configuration;im ...

随机推荐

深入JS正则先行断言
这里是 Mastering Lookahead and Lookbehind 文章的简单翻译,这篇文章是在自己搜索问题的时候stackoverflow上回答问题的人推荐的,看完觉得写得很不错.这里的简 ...
洛谷 P4551 最长异或路径
题目描述给定一棵 nn 个点的带权树,结点下标从 11 开始到 NN .寻找树中找两个结点,求最长的异或路径. 异或路径指的是指两个结点之间唯一路径上的所有节点权值的异或. 输入输出格式输入格式: ...
Uva 11542 Square
题目中说数组中的数的最大质因子不超过500,我们筛出≤500的质数,然后考虑对每个质数列一个方程组.. 然后这几乎就是高斯消元求解异或方程组的模板题了.... 注意答案是 2^(自由元数量)-1,因为 ...
七. 多线程编程6.isAlive()和join()的使用
如前所述,通常你希望主线程最后结束.在前面的例子中,这点是通过在main()中调用sleep()来实现的,经过足够长时间的延迟以确保所有子线程都先于主线程结束.然而,这不是一个令人满意的解决方法,它也 ...
sqlsever 和oracle的参数
StringBuilder strSql = new StringBuilder(); strSql.Append("insert into YXZY_TSDQWH("); str ...
redis 安装并且设置开机后台自动启动（转）
1,安装redis wget http://download.redis.io/releases/redis-2.8.8.tar.gz .tar.gz cd redis- make 2,建立Red ...
"library not found for - "解决办法
在我们编译的时候有时候会报这个错误 "library not found for - " 由于是我们在项目中使用了一些第三方的库,就比如我再使用百度的静态库文件的时候,报出的这个错 ...
Android activity中单击返回键或home键彻底退出应用
@Override public boolean onKeyDown(int keyCode, KeyEvent event) { if(keyCode == KeyEvent.KEYCODE_BAC ...
Tiny 6410的Linux学习总结！
1.Tiny6410的Linux系统修改IP地址: vi /etc/eth0-setting 2.Ubuntu14.04自动以root身份登录系统: /etc/lightdm/lig ...
Unity进阶技巧 - 使用MonoDevelop来断点调试
前言断点调试在编程调试过程中是一项非常重要的功能,而Unity自带的脚本编辑器MonoDevelop需要进行一些设置才能使用断点调试的功能,今天我们就来看看如何使用MonoDevelop进行断点调试 ...

map端join

map端join的更多相关文章

随机推荐

热门专题