作者：林冠宏 / 指尖下的幽灵

掘金：https://juejin.im/user/587f0dfe128fe100570ce2d8

博客：http://www.cnblogs.com/linguanh/

GitHub ： https://github.com/af913337456/

腾讯云专栏： https://cloud.tencent.com/developer/user/1148436/activities

`仅列举一些解决方法，事实的解决方案是非常多的。`

这些问题都是面临着有如下的考虑：

内存不足以放下所有的数。
机器CPU的核数不够。
...

问这些问题的意义：

如果能把这些问题答好，必然是综合计算机各方面的知识，从内存到数据结构甚至还涉及到硬件，方法面面。至此，我给它定位是，综合考量一个程序员计算机基础能力的面试题。

一，找出不重复的

在2.5亿个正整数中找出不重复的整数。

思路一：

`分治法 + HashMap` (HashMap 不要局限在 Java 语言)

将 2.5 亿个整数，分批操作，例如分成 250 万一批，共100批次。每批使用循环遍历一次，存入 HashMap<int1,int2> 里面，int1 对应这个数，int2 对应它出现的次数，没出现就默认是 1 次。每操作完一批，就进行当前的 HashMap 的去重操作，读出 int2 > 1 的，排除掉。接下来的批次，以此类推，得出 100，剩下的自然就是不重复的。

好了，我们现在来计算下上面这个方案的双间复杂度，`时间` & `空间`

时间复杂度：250W * 100轮 + 其它批次。对于多核机器，可以启动线程操作。

空间复杂度：使用 int 来进行存每一个数，保证不溢出情况下，那么就是 --> Key + Value : (250W * 4字节，4Byte)/(1024*1024) ~ (Key + 9.5MB) 内存。

思路二：

`位图法 Bitmap`(一个 bit 仅会是 0 或 1)

对于此题，我们可以设计每两个 bit 位，标示一个数的出现情况。00表示没有出现，01表示出现一次，10表示出现多次。2.5 亿个正整数，首先我们要知道是正整数，我们就不需要考虑负数，也就是无符号，无符号的整形占四个字节。

我们以这个为例子，开始计算`位图`内存。

1B = 8b，4B = 32b，它可以表示的最大的整数是 2^32-1(不溢出)，也就是说，我们需要 2^32-1 ~ 2^32 个位来表示这2.5亿个数。我们上面说了，每个状态是两个位，那么总共就是2^32*2个位。

那么我们可以一次申请的位图内存是：2^32*2 bit ，(2^32*2)/(1024*1024*8) = 1GB 即可。当然，我们也可以加上分治的思路，分批处理，不用直接用 1G，哈哈。

那么这样做的情况下怎样找到这个数呢？我举个例子，例如我们此时读入一个数是：64，64对应的所在bit位是：64*2=128，也就是说第 127 和 128 位共同标示了它的出现状态。其他的以此类推。每当我们读出一个数，我们就这样去找到它对应的bit位，先读出bit位的值，再做记录，已经是01的，再次来到，那么就应该修改为10。最后的我们这样得出结果：扫描整个位图，如果是10的，就下标/2得出这个数。

二，找出出现次数最多的

第一题：找出一篇文章中，出现次数最多的单词。

第二题：10亿个正整数找出重复次数最多的100个整数。

思路一：

`分治法 + HashMap`

没错，分治法 + HashMap 这个方法就是可以用来处理很多 Top K问题的。

对于问题一，其实比较简单，这道题也是我 2016 年腾讯第三轮技术面要求当场写代码的题目。我们可以先判断，这篇文章可能很长，也可能很短，那么我们应该规定一个字数的标志，作为一批的字数限制，例如100个文字。每100个文字是一批的处理极限，我们先读出100个，100以内的就直接全部读出。读出后，打散成字符串，例如英语文章它以空格和一些符号分割。使用split方法就可以打散。此时我们得出一个字符串数组String[] array，有了这个之后就可以参考 找出不重复 问题的解法。每批使用循环遍历一次，存入 HashMap<String,Integer> 里面，string 对应这个数的字符串，Integer 对应它出现的次数，最后最大的自然就是出现次数最多的。下面直接给出个 Demo 函数。

// LinGuanHong

public static void search(String limitText){

    String maxWord = "";

    int    maxTime = 0;

    String[] words = limitText.split(" |\\.|,");

    int length = words.length;

    HashMap<String,Integer> one = new HashMap<>();

    for(int j=0;j<length;j++){

        Integer number = one.get(words[j]);

        if(number != null){

            number = number + 1;

            /** 找到次数加 1    */

            one.put(words[j],number);

            if(maxTime < number){

                maxTime = number;

                maxWord = words[j];

            }

        }else{

            /** 没找到，赋值 1  */

            one.put(words[j],1);

        }

    }

    System.out.println("maxTime is :"+maxTime+" ; maxWord is :"+maxWord);

}

第二题对应的 分治法 + HashMap

按照前面的案例，我们首先一样是要把这十亿个数分成很多份。例如 1000份，每份 10万。然后使用 HashMap<int,int> 来统计。在每一次的统计中，我们可以找出最大的100个数，为什么只找10万中的100个啊？因为我们有1000份，其它份里面的第二大可能是这份里最小的。这样全部加起来都100*1000个数了。OK，在我们找出这100*1000个侯选数后，继续分治处理，或者直接进行排序，如果直接排序就是10W个数。排序算法可以选快排等之类的，前100个就是结果。

思路二：

`位图法 Bitmap`

第一题，略。不是纯数字的，不建议采用位图法。

第二题：

有了 找出不重复的 的例子做基础。我们此时直接知道这题的 正整数 最大也是只能到 2^32-1，对于这道题，我们不需要乘2，所以我们申请的内存大小也是512MB。这样我们就能使用这个位图把所有数都存进去。如果出现了一次，该bit位 = 1，没有就是0。多次出现的话，我们就不能累加到bit位里面了，因为它最大就是1。这时候我们会发现，出现多次的话，是无法通过bit位进行累加记录的。所以，此题也是不适合采用位图法。

实际操作(参考网上)

实际上，最优的解决方案应该是最符合实际设计需求的方案，在时间应用中，可能有足够大的内存，那么直接将数据扔到内存中一次性处理即可，也可能机器有多个核，这样可以采用多线程处理整个数据集。

下面针对不容的应用场景，分析了适合相应应用场景的解决方案。

单机+单核+足够大内存

  如果需要查找10亿个查询次（每个占8B）中出现频率最高的10个，考虑到每个查询词占8B，则10亿个查询次所需的内存大约是10^9 * 8B=8GB内存。如果有这么大内存，直接在内存中对查询次进行排序，顺序遍历找出10个出现频率最大的即可。这种方法简单快速，使用。然后，也可以先用HashMap求出每个词出现的频率，然后求出频率最大的10个词。

单机+多核+足够大内存

  这时可以直接在内存总使用Hash方法将数据划分成n个partition，每个partition交给一个线程处理，线程的处理逻辑同（1）类似，最后一个线程将结果归并。

  该方法存在一个瓶颈会明显影响效率，即数据倾斜。每个线程的处理速度可能不同，快的线程需要等待慢的线程，最终的处理速度取决于慢的线程。而针对此问题，解决的方法是，将数据划分成c×n个partition（c>1），每个线程处理完当前partition后主动取下一个partition继续处理，知道所有数据处理完毕，最后由一个线程进行归并。

单机+单核+受限内存

  这种情况下，需要将原数据文件切割成一个一个小文件，如次啊用hash(x)%M，将原文件中的数据切割成M小文件，如果小文件仍大于内存大小，继续采用Hash的方法对数据文件进行分割，知道每个小文件小于内存大小，这样每个文件可放到内存中处理。采用（1）的方法依次处理每个小文件。

多机+受限内存

  这种情况，为了合理利用多台机器的资源，可将数据分发到多台机器上，每台机器采用（3）中的策略解决本地的数据。可采用hash+socket方法进行数据分发。

其他的

例如问：XXXXX中找出最大的一个，最小的一个，最大的几个，最小的几个。这类的就可以使用分治法+最小堆/最大堆秒之。

完矣

经典面试问题: Top K 之 ---- 海量数据找出现次数最多或，不重复的。的更多相关文章

海量数据找相同数,高配词,不重复的数,判断一个数是否存在,查询串,不同电话号码的个数,中位数,按照query频度排序,topk
这类题目,首先需要确定可用内存的大小,然后确定数据的大小,由这两个参数就可以确定hash函数应该怎么设置才能保证每个文件的大小都不超过内存的大小,从而可以保证每个小的文件都能被一次性加载到内存中. 1 ...
55.Top K Frequent Elements（出现次数最多的k个元素）
Level: Medium 题目描述: Given a non-empty array of integers, return the k most frequent elements. Exam ...
海量数据中找top K专题
1. 10亿个数中找出最大的1000个数这种题目就是分治+堆排序. 为啥分治?因为数太多了,全部加载进内存不够用,所以分配到多台机器中,或者多个文件中,但具体分成多少份,视情况而定,只要保证满足内存 ...
海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）
前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好一些. 先拿10000个数建堆, ...
算法题解：最大或最小的K个数（海量数据Top K问题）
题目输入 n 个整数,找出其中最小的 k 个数.例如输入4.5.1.6.2.7.3.8 这8个数字,则最小的4个数字是1.2.3.4. 初窥这道题最简单的思路莫过于把输入的 n 个整数排序,排序之 ...
算法题解：最小的K个数（海量数据Top K问题）
[本文版权归微信公众号"代码艺术"(ID:onblog)所有,若是转载请务必保留本段原创声明,违者必究.若是文章有不足之处,欢迎关注微信公众号私信与我进行交流!] 题目输入 n ...
如何解决海量数据的Top K问题
1．问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门 ...
经典算法（一） top k
问题:1亿数据中,找出最大的k个数,要求使用内存不超过1m (延伸问题:1亿数据中,找出重复出现次数最多的k个,要求使用内存不超过1m 等) 分析: 1亿数字(int)占内存:100000000 * ...
《程序员代码面试指南》第八章数组和矩阵问题打印N 个数组整体最大的Top K
题目打印N 个数组整体最大的Top K java代码 package com.lizhouwei.chapter8; /** * @Description: 打印N 个数组整体最大的Top K * ...

随机推荐

Azure ARM (20) 将非托管磁盘虚拟机(Unmanage Disk)，迁移成托管磁盘虚拟机(Manage Disk)
<Windows Azure Platform 系列文章目录> PowerShell我已经提交到GitHub: https://github.com/leizhang1984/AzureC ...
二维码开源库ZBar-MDK STM32F429移植
前两篇文章已经实现ZBar在Windows平台下的编译和使用,本文将介绍如何把ZBar移植到STM32F429,IDE使用MDK. 1. MDK工程设置 (1)不勾选Use MicroLIB ,使用I ...
阿里云学习之IOT物联网套件（客户端与服务端的后台数据传输）
设备端代码(mqttClient):https://help.aliyun.com/document_detail/42648.html?spm=5176.doc30579.6.569.ZEgA1g ...
JSP的几种跳转方式的异同
1 <jsp:foward page="url" /> 服务端跳转,立即跳转,后续语句不会执行: 2 <% response.sendRedirect(" ...
微信小程序内嵌网页网站生成小程序
1. 进入小程序后台 - 设置 - 开发设置 2. 添加业务域名(小程序只支持https) 3. 小程序代码 <web-view src="网址"></web-v ...
eslint 入门项目搭建过程
github 地址 : https://github.com/gebin/eslint-demo 运行该项目 npm install npm start 访问 http://localhost:900 ...
基于gmap.net制作离线地图下载器
网上已有大量文章介绍gamp.net和离线下载相关的文章了.我就不在介绍gmap相关的文章了,这里着重介绍一下下载相关原理.其实gmap.net本身已自带下载工能,只是离线图片下载到sqlit中,现将 ...
hibernate之实体@onetomany和@manytoone双向注解（转）
下面是User类: @onetomany @Entity @Table(name="user") public class User implements Serializable ...
Redis Sentinel 高可用服务搭建
阅读目录: 关于 Redis 的概念关于 Redis Sentinel 的概念搭建 Redis Server(master) 搭建 Redis Server(slave) 搭建 Redis Sen ...
java1环境与简介
java1环境与简介 Ⅰ 个人简介陈鹏联系方式:15828682774 2012 年至今,从事软件开发 5 年. 1 年新加坡海外工作经历. 先后在民企.外企.创业公司做过开发. 熟悉 JAV ...

经典面试问题: Top K 之 ---- 海量数据找出现次数最多或，不重复的。

仅列举一些解决方法，事实的解决方案是非常多的。

问这些问题的意义：

一，找出不重复的

思路一：

分治法 + HashMap (HashMap 不要局限在 Java 语言)

好了，我们现在来计算下上面这个方案的双间复杂度，时间 & 空间

思路二：

位图法 Bitmap(一个 bit 仅会是 0 或 1)

我们以这个为例子，开始计算位图内存。

二，找出出现次数最多的

思路一：

分治法 + HashMap

思路二：

位图法 Bitmap

实际操作(参考网上)

其他的

完矣

经典面试问题: Top K 之 ---- 海量数据找出现次数最多或，不重复的。的更多相关文章

随机推荐

热门专题

`仅列举一些解决方法，事实的解决方案是非常多的。`

`分治法 + HashMap` (HashMap 不要局限在 Java 语言)

好了，我们现在来计算下上面这个方案的双间复杂度，`时间` & `空间`

`位图法 Bitmap`(一个 bit 仅会是 0 或 1)

我们以这个为例子，开始计算`位图`内存。

`分治法 + HashMap`

`位图法 Bitmap`