求亿级记录中搜索次数Top N的搜索词(MapReduce实现)

程序事例：

日志信息：

二手车    1345

二手房    3416

洗衣机    2789

输入： N=2

输出：

二手房

洗衣机

map函数如下：

import java.io.IOException;

import java.util.Map;

import java.util.TreeMap;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

public class TopNMapper extends Mapper<Object, Text, NullWritable, Text> {

    private TreeMap<IntWritable, Text> tm = new TreeMap<IntWritable, Text>();

    private IntWritable mykey = new IntWritable();

    private Text myvalue = new Text();

    private int N = 10;

    @Override

    protected void map(Object key, Text value,

            Mapper<Object, Text, NullWritable, Text>.Context context)

            throws IOException, InterruptedException {

        String word = value.toString().split("\t")[0];

        int num = Integer.parseInt(value.toString().split("\t")[1]);

        mykey.set(num);

        myvalue.set(word);

        tm.put(mykey, myvalue);

        if (tm.size() > N) tm.remove(tm.firstKey());

    }

    @Override

    protected void cleanup(

            Mapper<Object, Text, NullWritable, Text>.Context context)

            throws IOException, InterruptedException {

        for (Map.Entry<IntWritable, Text> entry : tm.entrySet()) {

            Text value = new Text(entry.getKey() + " " + entry.getValue());

            context.write(NullWritable.get(), value);

        }

    }

}

Reduce函数如下：

import java.io.IOException;

import java.util.TreeMap;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.NullWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

public class TopNReducer extends Reducer<NullWritable, Text, NullWritable, Text>{

    private TreeMap<IntWritable, Text> tm = new TreeMap<IntWritable, Text>();

    private IntWritable mykey = new IntWritable();

    private Text myvalue = new Text();

    private int N = 10;

    @Override

    protected void reduce(NullWritable key, Iterable<Text> values,

            Reducer<NullWritable, Text, NullWritable, Text>.Context context)

            throws IOException, InterruptedException {

        for (Text val : values) {

            String[] tmp = val.toString().split(" ");

            mykey.set(Integer.parseInt(tmp[0]));

            myvalue.set(tmp[1]);

            tm.put(mykey, myvalue);

            if (tm.size() > N) tm.remove(tm.firstKey());

        }

        for (Text res : tm.descendingMap().values()) {

            context.write(NullWritable.get(), res);

        }

    }

}

求亿级记录中搜索次数Top N的搜索词(MapReduce实现)的更多相关文章

L1-2. 点赞【求多组数据中出现次数最多的】
L1-2. 点赞时间限制 200 ms 内存限制 65536 kB 代码长度限制 8000 B 判题程序 Standard 作者陈越微博上有个“点赞”功能,你可以为你喜欢的博文点个赞表示支持.每 ...
BAT面试上机题从3亿个ip中找出访问次数最多的IP详解
我们面临的问题有以下两点:1)数据量太大,无法在短时间内解决:2)内存不够,没办法装下那么多的数据.而对应的办法其实也就是分成1)针对时间,合适的算法+合适的数据结构来提高处理效率:2)针对空间,就是 ...
Kafka万亿级消息实战
一.Kafka应用本文主要总结当Kafka集群流量达到万亿级记录/天或者十万亿级记录/天甚至更高后,我们需要具备哪些能力才能保障集群高可用.高可靠.高性能.高吞吐.安全的运行. 这里总结内容主 ...
剑指Offer（二十八）：数组中出现次数超过一半的数字
剑指Offer(二十八):数组中出现次数超过一半的数字搜索微信公众号:'AI-ming3526'或者'计算机视觉这件小事' 获取更多算法.机器学习干货 csdn:https://blog.csdn. ...
从大量的IP访问记录中找到访问次数最多的IP
1.内存不受限一个IP有32bit(4Byte),1GB=10亿,那么在4GB内存的情况下,可以存10亿个IP.用HashMap,边存入IP边维护一个最大次数,这样遍历一遍就可以求出,时间复杂度为O ...
【面试被虐】如何只用2GB内存从20亿，40亿，80亿个整数中找到出现次数最多的数？
这几天小秋去面试了,不过最近小秋学习了不少和位算法相关文章,例如 [面试现场]如何判断一个数是否在40亿个整数中? [算法技巧]位运算装逼指南对于算法题还是有点信心的,,,,于是,发现了如下对话. ...
php实现求数组中出现次数超过一半的数字（isset($arr[$val])）（取不同数看剩）（排序取中）
php实现求数组中出现次数超过一半的数字(isset($arr[$val]))(取不同数看剩)(排序取中) 一.总结 1.if(isset($arr[$val])) $arr[$val]++; //1 ...
Spark实战--寻找5亿次访问中，访问次数最多的人
问题描述对于一个大型网站,用户访问量尝尝高达数十亿.对于数十亿是一个什么样的概念,我们这里可以简单的计算一下.对于一个用户,单次访问,我们通常会记录下哪些数据呢? 1.用户的id 2.用户访问的时间 ...
清理8组nodes中表的历史数据，平均每个node中的表有1.5亿条记录，需要根据date_created字段清理8000W数据记录，这个字段没有索引。
清理8组nodes中表的历史数据,平均每个node中的表有1.5亿条记录,需要根据date_created字段清理8000W数据记录,这个字段没有索引. 环境介绍线上磁盘空间不足,truncate ...

随机推荐

磁盘冗余阵列之RAID10的配置
1988年由加利福尼亚大学伯克利分校发表的文章首次提到并定义了RAID,当今CPU性能每年可提升30%-50%但硬盘仅提升7%,渐渐的已经成为计算机整体性能的瓶颈,并且为了避免硬盘的突然损坏导致数据丢 ...
Redis 的底层数据结构（压缩列表）
上一篇我们介绍了 redis 中的整数集合这种数据结构的实现,也谈到了,引入这种数据结构的一个很大的原因就是,在某些仅有少量整数元素的集合场景,通过整数集合既可以达到字典的效率,也能使用远少于字典的内 ...
Python 基础面向对象之二三大特性
Python 基础面向对象之二三大特性上一篇主要介绍了Python中,面向对象的类和对象的定义及实例的简单应用,本篇继续接着上篇来谈,在这一篇中我们重点要谈及的内容有:Python 类的成员.成 ...
mysql数据库基本操作语句
1 更改字段名:change alter table student change column gradenews grade int(11); 2 增加字段和删除字段 alter table s ...
Potato Sacks
Potato sacks come in different weight capacities (specified in pounds). Potatoes come in different w ...
jenkins里的定时构建
1. 定时构建语法:* * * * * (五颗星,多个时间点,中间用逗号隔开)第一个*表示分钟,取值0~59第二个*表示小时,取值0~23第三个*表示一个月的第几天,取值1~31第四个*表示第几月,取 ...
（C#）WPF：Grid面板介绍
Grid:网格面板 Grid和其他各个Panel比较起来,功能最多也最为复杂.要使用Grid,首先要向RowDefinitions和ColumnDefinitions属性中添加一定数量的RowDefi ...
qt基础知识之类库概述
qt是用标准c++编写的跨平台开发类库,它对标准c++进行拓展,引入元对象系统.信号&槽.属性等特征全局定义容器类及对应迭代器 qt的模块化体系,分为基本模块和拓展模块,一个模块通常就是 ...
力扣（LeetCode）从不订购的客户-数据库题个人题解
SQL架构某网站包含两个表,Customers 表和 Orders 表.编写一个 SQL 查询,找出所有从不订购任何东西的客户. Customers 表: +----+-------+ | Id | ...
学习记录：《C++设计模式——李建忠主讲》5.“对象性能”模式
对象性能模式:面向对象很好地解决了抽象地问题,但是必不可免地要付出一定地代价.对于通常情况来讲,面向对象地成本大都可以忽略不计,但某些情况,面向对象所带来地成本必须谨慎处理. 典型模式:单件模式(Si ...

求亿级记录中搜索次数Top N的搜索词(MapReduce实现)

求亿级记录中搜索次数Top N的搜索词(MapReduce实现)的更多相关文章

随机推荐

热门专题