本系列文章经补充和完善,已修订整理成书《Java编程的逻辑》,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接http://item.jd.com/12299018.html


45节介绍了堆的概念和算法,上节介绍了Java中堆的实现类PriorityQueue,PriorityQueue除了用作优先级队列,还可以用来解决一些别的问题,45节提到了如下两个应用:

  • 求前K个最大的元素,元素个数不确定,数据量可能很大,甚至源源不断到来,但需要知道到目前为止的最大的前K个元素。这个问题的变体有:求前K个最小的元素,求第K个最大的,求第K个最小的。
  • 求中值元素,中值不是平均值,而是排序后中间那个元素的值,同样,数据量可能很大,甚至源源不断到来。

本节,我们就来探讨如何解决这两个问题。

求前K个最大的元素

基本思路

一个简单的思路是排序,排序后取最大的K个就可以了,排序可以使用Arrays.sort()方法,效率为O(N*log2(N))。不过,如果K很小,比如是1,就是取最大值,对所有元素完全排序是毫无必要的。

另一个简单的思路是选择,循环选择K次,每次从剩下的元素中选择最大值,这个效率为O(N*K),如果K的值大于log2(N),这个就不如完全排序了。

不过,这两个思路都假定所有元素都是已知的,而不是动态添加的。如果元素个数不确定,且源源不断到来呢?

一个基本的思路是维护一个长度为K的数组,最前面的K个元素就是目前最大的K个元素,以后每来一个新元素的时候,都先找数组中的最小值,将新元素与最小值相比,如果小于最小值,则什么都不用变,如果大于最小值,则将最小值替换为新元素。

这有点类似于生活中的末尾淘汰,新元素与原来最末尾的比即可,要么不如最末尾,上不去,要么替掉原来的末尾。

这样,数组中维护的永远是最大的K个元素,而且不管源数据有多少,需要的内存开销是固定的,就是长度为K的数组。不过,每来一个元素,都需要找最小值,都需要进行K次比较,能不能减少比较次数呢?

解决方法是使用最小堆维护这K个元素,最小堆中,根即第一个元素永远都是最小的,新来的元素与根比就可以了,如果小于根,则堆不需要变化,否则用新元素替换根,然后向下调整堆即可,调整的效率为O(log2(K)),这样,总体的效率就是O(N*log2(K)),这个效率非常高,而且存储成本也很低。

使用最小堆之后,第K个最大的元素也很容易获得,它就是堆的根。

理解了思路,下面我们来看代码。

实现代码

我们来实现一个简单的TopK类,代码如下所示:

  1. public class TopK <E> {
  2. private PriorityQueue<E> p;
  3. private int k;
  4.  
  5. public TopK(int k){
  6. this.k = k;
  7. this.p = new PriorityQueue<>(k);
  8. }
  9.  
  10. public void addAll(Collection<? extends E> c){
  11. for(E e : c){
  12. add(e);
  13. }
  14. }
  15.  
  16. public void add(E e) {
  17. if(p.size()<k){
  18. p.add(e);
  19. return;
  20. }
  21. Comparable<? super E> head = (Comparable<? super E>)p.peek();
  22. if(head.compareTo(e)>0){
  23. //小于TopK中的最小值,不用变
  24. return;
  25. }
  26. //新元素替换掉原来的最小值成为Top K之一。
  27. p.poll();
  28. p.add(e);
  29. }
  30.  
  31. public <T> T[] toArray(T[] a){
  32. return p.toArray(a);
  33. }
  34.  
  35. public E getKth(){
  36. return p.peek();
  37. }
  38. }

我们稍微解释一下。

TopK内部使用一个优先级队列和k,构造方法接受一个参数k,使用PriorityQueue的默认构造方法,假定元素实现了Comparable接口。

add方法,实现向其中动态添加元素,如果元素个数小于k直接添加,否则与最小值比较,只在大于最小值的情况下添加,添加前,先删掉原来的最小值。addAll方法循环调用add方法。

toArray方法返回当前的最大的K个元素,getKth方法返回第K个最大的元素。

我们来看一下使用的例子:

  1. TopK<Integer> top5 = new TopK<>(5);
  2. top5.addAll(Arrays.asList(new Integer[]{
  3. 100, 1, 2, 5, 6, 7, 34, 9, 3, 4, 5, 8, 23, 21, 90, 1, 0
  4. }));
  5.  
  6. System.out.println(Arrays.toString(top5.toArray(new Integer[0])));
  7. System.out.println(top5.getKth());

保留5个最大的元素,输出为:

  1. [21, 23, 34, 100, 90]
  2. 21

代码比较简单,就不解释了。

求中值

基本思路

中值就排序后中间那个元素的值,如果元素个数为奇数,中值是没有歧义的,但如果是偶数,中值可能有不同的定义,可以为偏小的那个,也可以是偏大的那个,或者两者的平均值,或者任意一个,这里,我们假定任意一个都可以。

一个简单的思路是排序,排序后取中间那个值就可以了,排序可以使用Arrays.sort()方法,效率为O(N*log2(N))。

不过,这要求所有元素都是已知的,而不是动态添加的。如果元素源源不断到来,如何实时得到当前已经输入的元素序列的中位数?

可以使用两个堆,一个最大堆,一个最小堆,思路如下:

  1. 假设当前的中位数为m,最大堆维护的是<=m的元素,最小堆维护的是>=m的元素,但两个堆都不包含m。
  2. 当新的元素到达时,比如为e,将e与m进行比较,若e<=m,则将其加入到最大堆中,否则将其加入到最小堆中。
  3. 第二步后,如果此时最小堆和最大堆的元素个数的差值>=2 ,则将m加入到元素个数少的堆中,然后从元素个数多的堆将根节点移除并赋值给m。

我们通过一个例子来解释下,比如输入元素依次为:

  1. 34, 90, 67, 45,1

输入第一个元素时,m即为34。

输入第二个元素时,90大于34,加入最小堆,中值不变,如下所示:


输入第三个元素时,67大于34,加入最小堆,但加入最小堆后,最小堆的元素个数为2,需调整中值和堆,现有中值34加入到最大堆中,最小堆的根67从最小堆中删除并赋值给m,如下图所示:

输入第四个元素45时,45小于67,加入最大堆,中值不变,如下图所示:


输入第五个元素1时,1小于67,加入最大堆,此时需调整中值和堆,现有中值67加入到最小堆中,最大堆的根45从最大堆中删除并赋值给m,如下图所示:

实现代码

理解了基本思路,我们来实现一个简单的中值类Median,代码如下所示:

  1. public class Median <E> {
  2. private PriorityQueue<E> minP; // 最小堆
  3. private PriorityQueue<E> maxP; //最大堆
  4. private E m; //当前中值
  5.  
  6. public Median(){
  7. this.minP = new PriorityQueue<>();
  8. this.maxP = new PriorityQueue<>(11, Collections.reverseOrder());
  9. }
  10.  
  11. private int compare(E e, E m){
  12. Comparable<? super E> cmpr = (Comparable<? super E>)e;
  13. return cmpr.compareTo(m);
  14. }
  15.  
  16. public void add(E e){
  17. if(m==null){ //第一个元素
  18. m = e;
  19. return;
  20. }
  21. if(compare(e, m)<=0){
  22. //小于中值, 加入最大堆
  23. maxP.add(e);
  24. }else{
  25. minP.add(e);
  26. }
  27. if(minP.size()-maxP.size()>=2){
  28. //最小堆元素个数多,即大于中值的数多
  29. //将m加入到最大堆中,然后将最小堆中的根移除赋给m
  30. maxP.add(this.m);
  31. this.m = minP.poll();
  32. }else if(maxP.size()-minP.size()>=2){
  33. minP.add(this.m);
  34. this.m = maxP.poll();
  35. }
  36. }
  37.  
  38. public void addAll(Collection<? extends E> c){
  39. for(E e : c){
  40. add(e);
  41. }
  42. }
  43.  
  44. public E getM() {
  45. return m;
  46. }
  47. }

代码和思路基本是对应的,比较简单,就不解释了。我们来看一个使用的例子:

  1. Median<Integer> median = new Median<>();
  2. List<Integer> list = Arrays.asList(new Integer[]{
  3. 34, 90, 67, 45, 1, 4, 5, 6, 7, 9, 10
  4. });
  5. median.addAll(list);
  6. System.out.println(median.getM());

输出为中值9。

小结

本节介绍了堆和PriorityQueue的两个应用,求前K个最大的元素和求中值,介绍了基本思路和实现代码,相比使用排序,使用堆不仅实现效率更高,而且还可以应对数据量不确定且源源不断到来的情况,可以给出实时结果。

到目前为止,我们介绍了队列的两个实现,LinkedList和PriortiyQueue,Java容器类中还有一个队列的实现类ArrayDeque,它是基于数组实现的,我们知道,一般而言,因为需要移动元素,数组的插入和删除效率比较低,但ArrayDeque的效率却很高,甚至高于LinkedList,它是怎么实现的呢?让我们下节来探讨。

---------------

未完待续,查看最新文章,敬请关注微信公众号“老马说编程”(扫描下方二维码),从入门到高级,深入浅出,老马和你一起探索Java编程及计算机技术的本质。用心原创,保留所有版权。

Java编程的逻辑 (47) - 堆和PriorityQueue的应用的更多相关文章

  1. 计算机程序的思维逻辑 (47) - 堆和PriorityQueue的应用

    45节介绍了堆的概念和算法,上节介绍了Java中堆的实现类PriorityQueue,PriorityQueue除了用作优先级队列,还可以用来解决一些别的问题,45节提到了如下两个应用: 求前K个最大 ...

  2. 《Java编程的逻辑》 - 文章列表

    <计算机程序的思维逻辑>系列文章已整理成书<Java编程的逻辑>,由机械工业出版社出版,2018年1月上市,各大网店有售,敬请关注! 京东自营链接:https://item.j ...

  3. Java编程的逻辑 (45) - 神奇的堆

    本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http:/ ...

  4. Java编程的逻辑 (46) - 剖析PriorityQueue

    本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http:/ ...

  5. Java编程的逻辑 (55) - 容器类总结

    本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http:/ ...

  6. Java编程的逻辑 (76) - 并发容器 - 各种队列

    ​本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http: ...

  7. Java编程的逻辑 (12) - 函数调用的基本原理

    本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http:/ ...

  8. Java编程的逻辑 (83) - 并发总结

    ​本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http: ...

  9. Java编程的逻辑 (80) - 定时任务的那些坑

    ​本系列文章经补充和完善,已修订整理成书<Java编程的逻辑>,由机械工业出版社华章分社出版,于2018年1月上市热销,读者好评如潮!各大网店和书店有售,欢迎购买,京东自营链接:http: ...

随机推荐

  1. 牛腩学用MUI做手机APP

    斗鱼直播间直播学习撸码,最终目标是用MUI做一个手机APP(暂定android平台,攒钱买IPHONE 7SE!!!),直播内容含整个软件APP的制作过程(含后台接口的制作,放到自己买的阿里云服务器, ...

  2. modelsim编译Xilinx器件库的另一种方法(节省时间)

    以前在用modelsim对Xilinx进行器件库编译时,我用的比较多的是直接在ISE中编译器件库,感觉很方便简单,就是编译时间有点长.自从前段时间,在自己电脑装MathType,360杀毒软件将它视为 ...

  3. [svc]centos6使用chkconfig治理服务和其原理

    centos6开机启动级别 $ cat /etc/inittab ... # 0 - halt (Do NOT set initdefault to this) # 1 - Single user m ...

  4. 进程process与线程thread

    进程:process是一个外理过程,即然是外理过程,那么它就有生命周期,从进程的启动,运行,直到运行结束,进程终止.进程是程序的执行实例,即运行中的程序,同时也是程序的一个副本,程序是放置于磁盘的,而 ...

  5. cuteftp 9 显示中文乱码

    当用FTP连接空间时,中文命名的文件名会显示乱码,原来是编码设置错误.怎么修改呢? 修改方法如下: 选择. 工具--> 全局选项->传输:1. 传输方法: ASCII2. SFTP档案名称 ...

  6. 《深入应用C++11:代码优化与工程级应用》开始发售

    我的新书<深入应用C++11:代码优化与工程级应用>已经开始在华章微店发售了,下面是链接. 京东发售链接 china-pub发售链接 亚马逊发售链接 天猫商城发售链接 适用读者:C++11 ...

  7. linux命令(41):文件和文件夹的颜色

    各个颜色的文件分别代表的是:蓝色表示目录:绿色表示可执行文件:红色表示压缩文件:浅蓝色表示链接文件:灰色表示其它文件:红色闪烁表示链接的文件有问题了:黄色是设备文件,包括block, char, fi ...

  8. win10下安装redis 服务

    Window 下安装 下载地址:https://github.com/MSOpenTech/redis/releases Redis 支持 32 位和 64 位.这个需要根据你系统平台的实际情况选择, ...

  9. vs ComboBox显示多行

    ComboBox,Drop List Type添加了多个数据,但是编译出来点下来按钮,只有一行. 惆怅 然后搜了下发现有人说: 在资源里面点向下箭头,把数据区拉长一点 然后才发现,原来资源里的Comb ...

  10. 使用BC库解密出现no such provider错误

    使用BC库解密出现no such provider错误 错误提示如下: Exception in thread "main" java.security.NoSuchProvide ...