经典面试问题: Top K 之 ---- 海量数据找出现次数最多或，不重复的。

【经典面试问题: Top K 之 ---- 海量数据找出现次数最多或，不重复的。】的更多相关文章

经典面试问题: Top K 之 ---- 海量数据找出现次数最多或，不重复的。

作者:林冠宏 / 指尖下的幽灵掘金:https://juejin.im/user/587f0dfe128fe100570ce2d8 博客:http://www.cnblogs.com/linguanh/ GitHub : https://github.com/af913337456/ 腾讯云专栏: https://cloud.tencent.com/developer/user/1148436/activities 仅列举一些解决方法,事实的解决方案是非常多的. 这些问题都是面临着有如下的考虑…

海量数据找相同数,高配词,不重复的数,判断一个数是否存在,查询串,不同电话号码的个数,中位数,按照query频度排序,topk

这类题目,首先需要确定可用内存的大小,然后确定数据的大小,由这两个参数就可以确定hash函数应该怎么设置才能保证每个文件的大小都不超过内存的大小,从而可以保证每个小的文件都能被一次性加载到内存中. 1. 如何从大量的url中找到相同的url? 题目描述:给定a.b两个文件,各存放50亿个url,每个url各占64B,内存限制是4GB,请找出a.b两个文件共同的url. 分析:50亿个url,50亿*64 = 5GB*64=320GB,内存大小4GB,因此不可能一次性把所有的url都加载到内存中处…

55.Top K Frequent Elements（出现次数最多的k个元素）

Level: Medium 题目描述: Given a non-empty array of integers, return the k most frequent elements. Example 1: Input: nums = [1,1,1,2,2,3], k = 2 Output: [1,2] Example 2: Input: nums = [1], k = 1 Output: [1] Note: You may assume k is always valid, 1 ≤ k…

海量数据中找top K专题

1. 10亿个数中找出最大的1000个数这种题目就是分治+堆排序. 为啥分治?因为数太多了,全部加载进内存不够用,所以分配到多台机器中,或者多个文件中,但具体分成多少份,视情况而定,只要保证满足内存限制即可.什么,如何分?Hash(num)% numOfFiles. 为啥堆排序?首先堆排序是一种选择排序,比一般的选择排序时间复杂度要低,额外的空间复杂度都是O(1).因为我只要在每一份中拿出最大的1000个即可,这里用大顶堆还是小顶堆呢? 开始我觉得是大顶堆,我们不妨举个例子:假设10亿个数,分…

海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）

前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好一些. 先拿10000个数建堆,然后一次添加剩余元素,如果大于堆顶的数(10000中最小的),将这个数替换堆顶,并调整结构使之仍然是一个最小堆,这样,遍历完后,堆中的10000个数就是所需的最大的10000个.建堆时间复杂度是O(mlogm),算法的时间复杂度为O(nmlogm)(n为10亿,m为10000). 优化的方法:可以把…

算法题解：最大或最小的K个数（海量数据Top K问题）

题目输入 n 个整数,找出其中最小的 k 个数.例如输入4.5.1.6.2.7.3.8 这8个数字,则最小的4个数字是1.2.3.4. 初窥这道题最简单的思路莫过于把输入的 n 个整数排序,排序之后位于最前面的 k 个数就是最小的 k 个数.这种思路的时间复杂度是 O(nlogn). 解法一:脱胎于快排的O(n)的算法如果基于数组的第 k 个数字来调整,使得比第 k 个数字小的所有数字都位于数组的左边,比第 k 个数字大的所有数字都位于数组的右边.这样调整之后,位于数组中左边的 k 个数字…

算法题解：最小的K个数（海量数据Top K问题）

[本文版权归微信公众号"代码艺术"(ID:onblog)所有,若是转载请务必保留本段原创声明,违者必究.若是文章有不足之处,欢迎关注微信公众号私信与我进行交流!] 题目输入 n 个整数,找出其中最小的 k 个数.例如输入4.5.1.6.2.7.3.8 这8个数字,则最小的4个数字是1.2.3.4. 初窥这道题最简单的思路莫过于把输入的 n 个整数排序,排序之后位于最前面的 k 个数就是最小的 k 个数.这种思路的时间复杂度是 O(nlogn). 解法一:脱胎于快排的O(n)的算法…

如何解决海量数据的Top K问题

1．问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎中,统计搜索最热门的10个查询词:在歌曲库中统计下载率最高的前10首歌等等. 2．当前解决方案针对top k类问题,通常比较好的方案是[分治+trie树/hash+小顶堆],即先将数据集按照hash方法分解成多个小数据集,然后使用trie树或者hash统计每个小数据集中的query词频,之后用小顶堆求出每个数据集…

经典算法（一） top k

问题:1亿数据中,找出最大的k个数,要求使用内存不超过1m (延伸问题:1亿数据中,找出重复出现次数最多的k个,要求使用内存不超过1m 等) 分析: 1亿数字(int)占内存:100000000 * 4byte / 1024 / 1024 =381m 其中 int=4byte,1m=1024kb,1kb=1024b 实现: 维护一个k大小的数组有序数组.每次加进来新的,都要判断是不是换掉该数组中最小的元素,如果需要,则删除最小元素,放入新元素,并重新排序. 基于小顶堆的实现: 创建一个k大小…

《程序员代码面试指南》第八章数组和矩阵问题打印N 个数组整体最大的Top K

题目打印N 个数组整体最大的Top K java代码 package com.lizhouwei.chapter8; /** * @Description: 打印N 个数组整体最大的Top K * @Author: lizhouwei * @CreateDate: 2018/5/9 20:11 * @Modify by: * @ModifyDate: */ public class Chapter8_20 { public void printTopK(int[][] matrix, int…