Mapreduce TopK

思想比较简单，就是每个通过map来获取当前的数据块中的的topk个数据，然后将他们以相同的key值放到reduce中，最后通过reduce来对这n*k个数据排序并获得topk个数据。具体的就是建立一个k个大小的数组，一开始初始化为都是100（假定这里的100是最大的数），然后往里面插数据小的数据即可。

PS：有几个小细节以及当时写代码的时候出错的地方。

1 map和reduce都是在每个键值对来的时候会被调用。当时觉得应该把这k的数组放在哪，以及怎么初始化。如果放在map方法里面，那每次都会被初始化，岂不是白搞了。如果把这数组当作局部变量，那肯定是不行的，因为当作局部变量就无法实现存放k个数据了。只能存放当前的数据。后来查了资料发现，有个setup这个函数，就是用于mapper中的某些数据的初始化，这样就可以把数组作为mapper的属性，然后在setup中进行初始化了。

2 当我全部遍历完这个数据分片的数据后，并且已经获得了当前mapper中的topk了，我如何把数据传到reducer呢，最理想的就是在遍历完后才把数据发送过去，但是以前都是处理一个键值对就发送一个，然后查了下，发现有个cleanup函数，就是用于mapper或者reducer结束后用的，那么就可以通过这个函数来发送键值对了。

3 这是个逻辑上的问题，我这里的topk是选最小的几个，然后当时写的是，先将数组排序，然后从前往后查询，如果发现value<list[i]那么就将该数组中数据替换，但是这个有问题，例如有这样的

45
21
75
94
1
34
56
7
67

按照我一开始的逻辑是，

45，100，100

21，100，100显然这一步就错了，应该是21，45，100所以应该是从后往前的查询，每次查询能替换的最大的数据，而不是从前往后的查询替换最小的数据

具体代码：

Map

public void setup(Context context){

Configuration conf=context.getConfiguration();

int k=Integer.parseInt(conf.get( "k" ));

list =new int[k];

for (int i=0;i<k;i++){

list [i]=100;

}

public void cleanup(Context context) throws IOException, InterruptedException{

for (int i=0;i< list. length ;i++){

context.write( new IntWritable(0), new IntWritable( list[i]));

System. out .println(" ");

System. out .println("map is " + list[i]);

System. out .println(" ");

}

public void map(LongWritable ikey, Text ivalue, Context context)

throws IOException, InterruptedException {

Configuration conf=context.getConfiguration();

int k=Integer.parseInt(conf.get( "k" ));

int value=Integer.parseInt(ivalue.toString());

Arrays. sort( list);

System. out .println(" ");

System. out .println("n is " + n);

System. out .println(" ");

for (int j=k-1;j>=0;j--){

if (value<list [j]){

list [j]=value;

break ;

}

Reducer

public void setup(Context context){

Configuration conf=context.getConfiguration();

int k=Integer.parseInt(conf.get( "k" ));

list =new int[k];

for (int i=0;i<k;i++){

list [i]=100;

}

public void cleanup(Context context) throws IOException, InterruptedException{

Arrays. sort( list);

for (int i=0;i< list. length ;i++){

context.write( new IntWritable(i), new IntWritable( list[i]));

}

public void reduce(IntWritable _key, Iterable<IntWritable> values, Context context)

throws IOException, InterruptedException {

// process values

Configuration conf=context.getConfiguration();

int k=Integer.parseInt(conf.get( "k" ));

for (IntWritable val : values) {

System.out.println(" ");

System.out.println("value is "+val.get());

System.out.println(" ");

Arrays. sort( list);

for (int j=k-1;j>=0;j--){

if (val.get()<list [j]){

list [j]=val.get();

break ;

}

Mapreduce TopK的更多相关文章

MapReduce TopK统计加排序
Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词.在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例. 这个案例分两个 ...
使用MapReduce实现一些经典的案例
在工作中,很多时候都是用hive或pig来自动化执行mr统计,但是我们不能忘记原始的mr.本文记录了一些通过mr来完成的经典的案例,有倒排索引.数据去重等,需要掌握. 一.使用mapreduce实现倒 ...
MapReduceTopK TreeMap
版权声明: https://blog.csdn.net/zhangxiango/article/details/33319281 MapReduce TopK统计加排序中介绍的TopK在mapredu ...
MapReduce实现TopK的示例
由于开始学习MapReduce编程已经有一段时间了,作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲,手开始变得很“痒”了,很想小试一下身手.于是自己编写了TopK的代码.TopK的意思就是从原文 ...
Hadoop学习笔记—12.MapReduce中的常见算法
一.MapReduce中有哪些常见算法 (1)经典之王:单词计数这个是MapReduce的经典案例,经典的不能再经典了! (2)数据去重 "数据去重"主要是为了掌握和利用并行化思 ...
mapReduce编程之auto complete
1 n-gram模型与auto complete n-gram模型是假设文本中一个词出现的概率只与它前面的N-1个词相关.auto complete的原理就是,根据用户输入的词,将后续出现概率较大的词 ...
mapReduce编程之Recommender System
1 协同过滤算法协同过滤算法是现在推荐系统的一种常用算法.分为user-CF和item-CF. 本文的电影推荐系统使用的是item-CF,主要是由于用户数远远大于电影数,构建矩阵的代价更小:另外,电 ...
InAction-MR的topK
本来只是想拿搜狗的数据练练手的,却无意踏足MR的topK问题.经过几番波折,虽然现在看起来很简单,但是摸爬滚打中也学到了不少数据是搜狗实验室下的搜索日志,格式大概为: 00:00:00 298219 ...
MapReduce 支持的部分数据挖掘算法
MapReduce 支持的部分数据挖掘算法 MapReduce 能够解决的问题有一个共同特点:任务可以被分解为多个子问题,且这些子问题相对独立,彼此之间不会有牵制,待并行处理完这些子问题后,任务便被解 ...

随机推荐

【转】VC6.0打开或者添加工程文件崩溃的解决方法
很多学习编程的同学都遇到这样的问题,在Windows操作系统下使用Visual C++ 6.0编程时,如果点击菜单中的[打开]或者[添加],或者按快捷键,都会弹出下图的对话框,出现程序崩溃并退出的情况 ...
linux的学习系列 2--文件系统
Linux中的所有数据都被保存在文件中,所有的文件被分配到不同的目录.目录是一种类似于树的结构,称为文件系统. 当你使用Linux时,大部分时间都会和文件打交道,通过本节可以了解基本的文件操作,如创建 ...
xp安装maven
1.下载apache-maven-2.0.8 2.设置xp环境变量 MAVEN_HOME D:\apache-maven-2.0.8 在path里面假如 %MAVEN_HOME%\bin 然后打开c ...
JavaScript（1）——变量、函数声明及作用域
这是我的第一篇博客文章,本人不才,文笔也不好,所以可能写的有点凌乱.有什么不对的地方还望见谅.不过每天进步一小步,总有一天会迈出那一大步.以下内容是我对变量.函数声明及函数表达式.作用域的理解. [变 ...
lucene4.7 分页
转载自http://my.oschina.net/MrMichael/blog/220782 我们先来看下下面的问题,现在我们的索引里有2亿多的数据,那么现在的需求是,把索引里的全部数据,读取然后写 ...
cocos2d CCLOG格式符号表
使用示例: CCLOG(); CCLOG(, 650000L); CCLOG(); CCLOG(); CCLOG(, , , , ); CCLOG("Floats: %4.2f %.0e % ...
Win7下配置Django+Apache+mod_wsgi+Sqlite
搭建环境: win7 64位 Django 1.8.5 Apache2.4.17 mod_wsgi_ap24py27.so Python2.7.9 1 安装Apache 下载Apache Haus版, ...
转：selenium webdriver 执行javascript代码
在用selenium webdriver 编写web页面的自动化测试代码时,可能需要执行一些javascript代码,selenium本身就支持执行js,我们在代码中import org.openqa ...
hdu_3886_Final Kichiku “Lanlanshu”(数位DP)
题目连接:http://acm.hdu.edu.cn/showproblem.php?pid=3886 题意:这题的题意有点晦涩难懂,大概意思就是给你一个区间,让你找一些满足递增递减条件的数,举个列: ...
CentOS6.5 添加epel源
0.安装yum优先级插件 yum install yum-priorities 1.epel简介: https://fedoraproject.org/wiki/EPEL/zh-cn rpm -Uvh ...

Mapreduce TopK

Mapreduce TopK的更多相关文章

随机推荐

热门专题