经典面试问题: Top K 之 ---- 海量数据找出现次数最多或,不重复的。
作者:林冠宏 / 指尖下的幽灵
GitHub : https://github.com/af913337456/
腾讯云专栏: https://cloud.tencent.com/developer/user/1148436/activities
仅列举一些解决方法,事实的解决方案是非常多的。
这些问题都是面临着有如下的考虑:
- 内存不足以放下所有的数。
- 机器CPU的核数不够。
- ...
问这些问题的意义:
如果能把这些问题答好,必然是综合计算机各方面的知识,从内存到数据结构甚至还涉及到硬件,方法面面。至此,我给它定位是,综合考量一个程序员计算机基础能力的面试题。
一,找出不重复的
在2.5亿
个正整数
中找出不重复的整数。
思路一:
分治法 + HashMap
(HashMap 不要局限在 Java 语言)
将 2.5 亿个整数,分批操作,例如分成 250 万一批,共100批次。每批使用循环遍历一次,存入 HashMap<int1,int2>
里面,int1
对应这个数,int2
对应它出现的次数,没出现就默认是 1 次。每操作完一批,就进行当前的 HashMap
的去重操作
,读出 int2 > 1
的,排除掉。接下来的批次,以此类推,得出 100,剩下的自然就是不重复的。
好了,我们现在来计算下上面这个方案的双间复杂度,时间
& 空间
时间复杂度
:250W * 100轮 + 其它批次
。对于多核机器,可以启动线程操作。
空间复杂度
:使用 int 来进行存每一个数,保证不溢出情况下,那么就是 --> Key + Value : (250W * 4字节,4Byte)/(1024*1024) ~ (Key + 9.5MB)
内存。
思路二:
位图法 Bitmap
(一个 bit 仅会是 0 或 1)
对于此题,我们可以设计每两个 bit
位,标示一个数的出现情况。00
表示没有出现,01
表示出现一次,10
表示出现多次。2.5 亿个正整数,首先我们要知道是正整数
,我们就不需要考虑负数,也就是无符号,无符号的整形占四个字节
。
我们以这个为例子,开始计算位图
内存。
1B = 8b,4B = 32b,它可以表示的最大
的整数是 2^32-1(不溢出)
,也就是说,我们需要 2^32-1 ~ 2^32
个位
来表示这2.5
亿个数。我们上面说了,每个状态
是两个位
,那么总共就是2^32*2
个位。
那么我们可以一次申请的 位图 内存是:2^32*2 bit ,(2^32*2)/(1024*1024*8) = 1GB
即可。当然,我们也可以加上分治
的思路,分批处理,不用直接用 1G,哈哈。
那么这样做的情况下怎样找到这个数呢?我举个例子,例如我们此时读入一个数是:64
,64
对应的所在bit
位是:64*2=128
,也就是说第 127
和 128
位共同标示了它的出现状态
。其他的以此类推。每当我们读出一个数,我们就这样去找到它对应的bit位
,先读出bit位
的值,再做记录,已经是01
的,再次来到,那么就应该修改为10
。最后的我们这样得出结果:扫描整个位图,如果是10
的,就下标/2
得出这个数。
二,找出出现次数最多的
第一题:找出一篇文章中,出现次数最多的单词。
第二题:10亿个正整数
找出重复次数最多的100个整数。
思路一:
分治法 + HashMap
没错,分治法 + HashMap
这个方法就是可以用来处理很多 Top K
问题的。
对于问题一
,其实比较简单,这道题也是我 2016 年腾讯第三轮技术面要求当场写代码的题目
。我们可以先判断,这篇文章可能很长,也可能很短,那么我们应该规定一个字数的标志
,作为一批的字数限制,例如100
个文字。每100
个文字是一批的处理极限,我们先读出100
个,100以内的就直接全部读出。读出后,打散成字符串,例如英语文章它以空格和一些符号分割。使用split
方法就可以打散。此时我们得出一个字符串数组String[] array
,有了这个之后就可以参考 找出不重复
问题的解法。每批使用循环遍历一次,存入 HashMap<String,Integer>
里面,string
对应这个数的字符串,Integer
对应它出现的次数,最后最大的自然就是出现次数最多的。下面直接给出个 Demo 函数
。
// LinGuanHong
public static void search(String limitText){
String maxWord = "";
int maxTime = 0;
String[] words = limitText.split(" |\\.|,");
int length = words.length;
HashMap<String,Integer> one = new HashMap<>();
for(int j=0;j<length;j++){
Integer number = one.get(words[j]);
if(number != null){
number = number + 1;
/** 找到次数加 1 */
one.put(words[j],number);
if(maxTime < number){
maxTime = number;
maxWord = words[j];
}
}else{
/** 没找到,赋值 1 */
one.put(words[j],1);
}
}
System.out.println("maxTime is :"+maxTime+" ; maxWord is :"+maxWord);
}
第二题对应的 分治法 + HashMap
按照前面的案例,我们首先一样是要把这十亿
个数分成很多份。例如 1000份
,每份 10万
。然后使用 HashMap<int,int>
来统计。在每一次的统计中,我们可以找出最大的100个数
,为什么只找10万
中的100个啊?因为我们有1000份
,其它份里面的第二大可能是这份里最小的。这样全部加起来都100*1000个
数了。OK,在我们找出这100*1000
个侯选数后,继续分治处理,或者直接进行排序,如果直接排序就是10W个数
。排序算法可以选快排
等之类的,前100个
就是结果。
思路二:
位图法 Bitmap
第一题,略。不是纯数字的,不建议采用位图法
。
第二题:
有了 找出不重复的
的例子做基础。我们此时直接知道这题的 正整数
最大也是只能到 2^32-1
,对于这道题,我们不需要乘2
,所以我们申请的内存大小也是512MB
。这样我们就能使用这个位图
把所有数都存进去。如果出现了一次,该bit位 = 1
,没有就是0。多次出现的话,我们就不能累加到bit位
里面了,因为它最大就是1
。这时候我们会发现,出现多次的话,是无法通过bit位
进行累加记录的。所以,此题也是不适合采用位图法
。
实际操作(参考网上)
实际上,最优的解决方案应该是最符合实际设计需求的方案,在时间应用中,可能有足够大的内存,那么直接将数据扔到内存中一次性处理即可,也可能机器有多个核,这样可以采用多线程处理整个数据集。
下面针对不容的应用场景,分析了适合相应应用场景的解决方案。
单机+单核+足够大内存
如果需要查找10亿个查询次(每个占8B)中出现频率最高的10个,考虑到每个查询词占8B,则10亿个查询次所需的内存大约是10^9 * 8B=8GB内存。如果有这么大内存,直接在内存中对查询次进行排序,顺序遍历找出10个出现频率最大的即可。这种方法简单快速,使用。然后,也可以先用HashMap求出每个词出现的频率,然后求出频率最大的10个词。
单机+多核+足够大内存
这时可以直接在内存总使用Hash方法将数据划分成n个partition,每个partition交给一个线程处理,线程的处理逻辑同(1)类似,最后一个线程将结果归并。 该方法存在一个瓶颈会明显影响效率,即数据倾斜。每个线程的处理速度可能不同,快的线程需要等待慢的线程,最终的处理速度取决于慢的线程。而针对此问题,解决的方法是,将数据划分成c×n个partition(c>1),每个线程处理完当前partition后主动取下一个partition继续处理,知道所有数据处理完毕,最后由一个线程进行归并。
单机+单核+受限内存
这种情况下,需要将原数据文件切割成一个一个小文件,如次啊用hash(x)%M,将原文件中的数据切割成M小文件,如果小文件仍大于内存大小,继续采用Hash的方法对数据文件进行分割,知道每个小文件小于内存大小,这样每个文件可放到内存中处理。采用(1)的方法依次处理每个小文件。
多机+受限内存
这种情况,为了合理利用多台机器的资源,可将数据分发到多台机器上,每台机器采用(3)中的策略解决本地的数据。可采用hash+socket方法进行数据分发。
其他的
例如问:XXXXX中找出最大的一个,最小的一个,最大的几个,最小的几个
。这类的就可以使用分治法+最小堆/最大堆
秒之。
完矣
经典面试问题: Top K 之 ---- 海量数据找出现次数最多或,不重复的。的更多相关文章
- 海量数据找相同数,高配词,不重复的数,判断一个数是否存在,查询串,不同电话号码的个数,中位数,按照query频度排序,topk
这类题目,首先需要确定可用内存的大小,然后确定数据的大小,由这两个参数就可以确定hash函数应该怎么设置才能保证每个文件的大小都不超过内存的大小,从而可以保证每个小的文件都能被一次性加载到内存中. 1 ...
- 55.Top K Frequent Elements(出现次数最多的k个元素)
Level: Medium 题目描述: Given a non-empty array of integers, return the k most frequent elements. Exam ...
- 海量数据中找top K专题
1. 10亿个数中找出最大的1000个数 这种题目就是分治+堆排序. 为啥分治?因为数太多了,全部加载进内存不够用,所以分配到多台机器中,或者多个文件中,但具体分成多少份,视情况而定,只要保证满足内存 ...
- 海量数据处理 - 10亿个数中找出最大的10000个数(top K问题)
前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好一些. 先拿10000个数建堆, ...
- 算法题解:最大或最小的K个数(海量数据Top K问题)
题目 输入 n 个整数,找出其中最小的 k 个数.例如输入4.5.1.6.2.7.3.8 这8个数字,则最小的4个数字是1.2.3.4. 初窥 这道题最简单的思路莫过于把输入的 n 个整数排序,排序之 ...
- 算法题解:最小的K个数(海量数据Top K问题)
[本文版权归微信公众号"代码艺术"(ID:onblog)所有,若是转载请务必保留本段原创声明,违者必究.若是文章有不足之处,欢迎关注微信公众号私信与我进行交流!] 题目 输入 n ...
- 如何解决海量数据的Top K问题
1. 问题描述 在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门 ...
- 经典算法(一) top k
问题:1亿数据中,找出最大的k个数,要求使用内存不超过1m (延伸问题:1亿数据中,找出重复出现次数最多的k个,要求使用内存不超过1m 等) 分析: 1亿数字(int)占内存:100000000 * ...
- 《程序员代码面试指南》第八章 数组和矩阵问题 打印N 个数组整体最大的Top K
题目 打印N 个数组整体最大的Top K java代码 package com.lizhouwei.chapter8; /** * @Description: 打印N 个数组整体最大的Top K * ...
随机推荐
- BZOJ 3505: [Cqoi2014]数三角形 [组合计数]
3505: [Cqoi2014]数三角形 给定一个nxm的网格,请计算三点都在格点上的三角形共有多少个. 注意三角形的三点不能共线. 1<=m,n<=1000 $n++ m++$ $ans ...
- python写一个md5解密器
前言: md5解密,百度了一下发现教程不是很多也不详细. 这个图都没一张...跳转地址:点我 0x01 windows环境,kali也可以啊 burpsuite requests模块 bs4模块 0x ...
- 【vim】插件管理及代码智能提示与补全环境的配置
1. 引言 可以使用脚本/插件来给vim添加各种神奇的功能,从更换颜色主题.到代码智能提示,甚至项目管理.无数开发者通过开源社区贡献自己开发的插件,使得vim有可能变得无比强大.这儿http://vi ...
- shell编程之BASH变量(2)
变量命名规范 在bash中,变量的默认类型都是字符串型,定义 name = 'kk' 变量分类 用户自定义变量.变量自定义的 环境变量:这种变量中主要保存的是和系统操作环境相关的数据.变量可以自定义, ...
- bzoj2876 [NOI2012]骑行川藏(拉格朗日乘数法)
题目描述 蛋蛋非常热衷于挑战自我,今年暑假他准备沿川藏线骑着自行车从成都前往拉萨.川藏线的沿途有着非常美丽的风景,但在这一路上也有着很多的艰难险阻,路况变化多端,而蛋蛋的体力十分有限,因此在每天的骑行 ...
- System.in实现数据的键盘输入
System.in The "standard" input stream. This stream is already open and ready to supply inp ...
- 一个网卡配置多个ip配置实现,centos7系统
仅一个网卡情况下,配置多个ip可以让该设备通过几个ip被访问,或隐藏常用ip,让其他人访问临时ip 一.永久性增加一个IP 方法1: vim /etc/sysconfig/network-script ...
- 8、flask之flask-script组件
Flask Script扩展提供向Flask插入外部脚本的功能,包括运行一个开发用的服务器,一个定制的Python shell,设置数据库的脚本,cronjobs,及其他运行在web应用之外的命令行任 ...
- 初识vue——起步
一.目录结构: 我们经常使用的是以下几个目录: 1.assets:静态资产文件:在vue组件中,所有组件中,所有模板和CSS都会被vue-html-loader和css-loader解析,并查找资源u ...
- 构造N位格雷码(递归,面向对象)
问题:递归打印出N位格雷码(相邻两个编码只有一位数字不同): 问题化归为:现有前N位的格雷码,如何构造N+1位的格雷码? 解决方法:采用递归构造格雷码集和. 递归出口:n = 1; 此时格雷码{0,1 ...