简单的topK问题

/************************************************************************/

/*

求一组数据中的top（K）问题，这是一个经典的top（K）问题。

分析：

方法一：如果数据量不大，那么最常用的方法就是排序从大大小，然后找出前k个数据。

比较高效率的排序算法，如快排，堆排序等，总体时间复杂度为 O(N*log2(N))+O(K)=O(N*log2(N))

或是直接用部分排序算法，如选择排序，直接找出前K个元素，时间复杂度为O(N*K),

至于O(N*log2(N)) 还是O(N*K)效率高，看K的取值，若K<log2(N)那么部分排序效率高。

方法二：

如果数据量非常大，不能够加载到内存中，这就成了一个海量数据问题。求其中的top(K)

就是我们所求的前K个大的数据。

这样考虑，我们用一个长度为K大小的数组存储前k个数据，然后经过一次扫描数据，每次

扫描一个数据，和数据中最小的数据比较，如果小于这个数据，继续下一个数据扫描，如果

大于这个数据，那么就替换掉数组中最小的那个数据。这样所消耗的时间效率为O(N*K)

进一步，我们可以用容量为K大小的最小堆来存储前K个数据，如果我们新扫描的数据小于堆顶

的数据，那么我们就替换最小堆的堆顶数据，调整最小堆形成新的最小堆。

最小堆可以用一个长为K大小的数组h模拟，对于结点h[i]，其中父节点为h[i/2],

儿子节点为：h[2*i+1]和h[2*i+2];

*/

/************************************************************************/

/*

n为要判断的数字，h为最小堆，k为topk 即最小堆维持的大小。

*/

void topK(int n,int *h,int K)

{

    if(n<h[])return;

    int p = ;

    int q = ;

    h[] = n;

    while(p < K)

    {

        q = *p +;

        if (q >= K) break;

        if (h[p] < h[q] && h[p] < h[q+])break;

        if (h[*p+] > h[*p+] ) q++;

        int tem = h[q];

        h[q] = h[p];

        h[p] = tem;

        p = q;

    }

}

简单的topK问题的更多相关文章

计算机程序的思维逻辑 (47) - 堆和PriorityQueue的应用
45节介绍了堆的概念和算法,上节介绍了Java中堆的实现类PriorityQueue,PriorityQueue除了用作优先级队列,还可以用来解决一些别的问题,45节提到了如下两个应用: 求前K个最大 ...
Java编程的逻辑 (47) - 堆和PriorityQueue的应用
本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http:/ ...
Topk引发的一些简单的思考
软件工程课程的一个题目:写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的10个词打印出来.文本文件大约是30KB~300KB大小. 首先说一下这边的具体的实现都是在linux上实现的. ...
TopK的一个简单实现
转自:http://rangerwolf.iteye.com/blog/2119096 题外话: <Hadoop in Action> 是一本非常不错的交Hadoop的入门书,而且建议看英 ...
关于堆排序和topK算法的PHP实现
问题描述 topK算法,简而言之,就是求n个数据里的前m大个数据,一般而言,m<<n,也就是说,n可能有几千万,而m只是10或者20这样的两位数. 思路最简单的思路,当然是使用要先对这n ...
InAction-MR的topK
本来只是想拿搜狗的数据练练手的,却无意踏足MR的topK问题.经过几番波折,虽然现在看起来很简单,但是摸爬滚打中也学到了不少数据是搜狗实验室下的搜索日志,格式大概为: 00:00:00 298219 ...
Python使用heapq实现小顶堆（TopK大）、大顶堆（BtmK小）
Python使用heapq实现小顶堆(TopK大).大顶堆(BtmK小) | 四号程序员 Python使用heapq实现小顶堆(TopK大).大顶堆(BtmK小) 4 Replies 需1求:给出N长 ...
Mapreduce TopK
思想比较简单,就是每个通过map来获取当前的数据块中的的topk个数据,然后将他们以相同的key值放到reduce中,最后通过reduce来对这n*k个数据排序并获得topk个数据.具体的就是建立 ...
scala写算法-用小根堆解决topK
topK问题是指从大量数据中获取最大(或最小)的k个数,比如从全校学生中寻找成绩最高的500名学生等等. 本问题可采用小根堆解决.思路是先把源数据中的前k个数放入堆中,然后构建堆,使其保持堆序(可以简 ...

随机推荐

【Java】剑指offer(28) 对称的二叉树
本文参考自<剑指offer>一书,代码采用Java语言. 更多:<剑指Offer>Java实现合集题目请实现一个函数,用来判断一棵二叉树是不是对称的.如果一棵二叉树和它 ...
Windows10 下安装scrapy 日志
Windows10 下安装scrapy 日志 1.下载python3.6 2.添加python.exe和pip.exe的路径到系统环境变量path中如c:\python36_64 C:\Python ...
SQL server学习（五）T-SQL编程之存储过程
周五了,祝大家周末愉快. 之前一直在写SQL server的分享,今天再来个T-SQL编程中的存储过程. 存储过程存储过程(procedure)类似于C语言中的函数,用来执行管理任务或应用复杂的业务 ...
GreenDao与ReactiveX的完美搭配
转载请注明出处:http://www.cnblogs.com/cnwutianhao/p/6719380.html 作为Android开发者,一定不会对 GreenDao 和 ReactiveX 陌生 ...
iOS 11开发教程（二十）iOS11应用视图美化按钮之设置按钮的状态
iOS 11开发教程(二十)iOS11应用视图美化按钮之设置按钮的状态在示例2-2中,设置按钮的标题和颜色时,需要对按钮的状态进行设置,表示按钮在某一状态下的标题和标题颜色是什么样子.例如,UICo ...
各种梯度下降 bgd sgd mbgd adam
转载 https://blog.csdn.net/itchosen/article/details/77200322 各种神经网络优化算法:从梯度下降到Adam方法在调整模型更新权重和偏差 ...
28BYJ-48步进电机
28BYJ-48步进电机:1.步进电机是一种将电脉冲转化为角位移的执行机构. 2.通俗一点讲:当步进驱动器接收到一个脉冲信号,它就驱动步进电机按设定的方向转动一个固定的角度(及步进角). 3.通过控 ...
SpringMVC页面传值
public ModelAndView query(){ ModelAndView modelAndView = new ModelAndView(); List list = new ArrayLi ...
Django拾遗--pagination、sitemap、admin、form
Django拾遗--pagination.sitemap.admin.form pagination 其实这个分页模块的原理就是根据设定的每页条数来分割queryset.查询结果/每页子项数目=页数 ...
json数据格式 net.sf.json.JSONException: A JSONObject text must begin with '{' at character 1 of Error:(findColumns1)Read timed out
substring(3)的用法http://www.w3school.com.cn/jsref/jsref_substring.asp 可能一:sb是要转化的数据,以sb是String为例 ...

简单的topK问题

简单的topK问题的更多相关文章

随机推荐

热门专题