堆排序应用之topK问题

题目：求海量数据（正整数）按逆序排列的前k个数（topK），因为数据量太大，不能全部存储在内存中，只能一个一个地从磁盘或者网络上读取数据，请设计一个高效的算法来解决这个问题。第一行用户输入K，代表要求得topK 随后的N（不限制）行，每一行是一个整数代表用户输入的数据直到用户输入-1代表输入终止请输出topK，空格分割。

思路：先开辟一个K大小的数组arr，然后读取K个数据存储到数组arr，读到K+1的时候，如果arr[K+1]小于arr中最小的值，那么就丢掉不管，如果arr[K+1]大于arr中最小的值，那么就把arr[K+1]和数组中最小的值进行交换，然后再读取K+2个数。这样就能解决这个问题。但是这个算法复杂度为K+(N-K)*K，K可以忽略不计，所以时间复杂度为O(KN)。那这个代码很容易就写出来。假如题目要求用到NlgK的时间复杂度，那么这里就需要使用堆这种数据结构来解决问题，而且还是小顶堆。具体思想还是和数组一样。

代码：

 import java.util.Arrays;

 import java.util.Scanner;

 public class TopK {

     static int[] heap;

     static int index = 0;

     static int k;

     public static void main(String[] args) {

         Scanner scanner = new Scanner(System.in);

         k = scanner.nextInt();

         heap = new int[k];

         int x = scanner.nextInt();

         while(x!=-1){

             deal(x);  // 处理x

             x = scanner.nextInt();

         }

         System.out.println(Arrays.toString(heap));

     }

     /**

      * 如果数据量小于等于k，直接加入堆中

      * 等于k的时候，进行堆化

      * @param x

      */

     private static void deal(int x) {

         if (index<k) {

             heap[index++] = x;

             if (index==k) {

                 // 堆化

                 makeMinHeap(heap);

                 System.out.println(Arrays.toString(heap));

             }

         }else if (heap[0]<x) {

             heap[0] = x;

             MinHeapFixDown(heap, 0, k);

             System.out.println(Arrays.toString(heap));

         }else {

             System.out.println(Arrays.toString(heap));

         }

     }

     static void makeMinHeap(int[] A){

         int n = A.length;

         for(int i = n/2-1;i>=0;i--){

             MinHeapFixDown(A,i,n);

         }

     }

     private static void MinHeapFixDown(int[] A, int i, int n) {

         //  找到左右孩子

         int left = 2 * i + 1;

         int right = 2 * i + 2 ;

         // 左孩子已经越界，i就是叶子节点

         if (left>=n) {

             return ;

         }

         // min 指向了左右孩子中较小的那个

         int min = left;

         if (right>=n) {

             min = left;

         }else {

             if (A[right]<A[left]) {

                 min = right;

             }

         }

         // 如果A[i]比两个孩子都要小，不用调整

         if (A[i]<=A[min]) {

             return ;

         }

         // 否则，找到两个孩子中较小的，和i交换

         int temp = A[i];

         A[i] = A[min];

         A[min] = temp;

         // 小孩子那个位置的值发生了变化，i变更为小孩子那个位置，递归调整

         MinHeapFixDown(A, min, n);

     }

 }

结果：

总结：partition和堆都能解决顺序统计量问题，堆更适用于海量数据流，适用于不能全部存储在内存中的数据，相当于实时数据流，而partition适用于能够一次加载到内存的数组。

堆排序应用之topK问题的更多相关文章

[151225] Python3 实现最大堆、堆排序，解决TopK问题
参考资料: 1.算法导论,第6章,堆排序堆排序学习笔记及堆排序算法的python实现 - 51CTO博客堆排序 Heap Sort - cnblogs 小根堆实现优先队列:Python实现 -cn ...
PHP实现堆排序
经验工作了,面试我工作这家公司时被技术面打击得不行,因为自己的数据结构等基础学得实在太差,虽然原来是想做设计师的说...不过看在PHP写得还凑合的份上能来实习了,但还是决心恶补一下基础. 其实自己之 ...
Java面试宝典系列之基础排序算法
本文就是介绍一些常见的排序算法.排序是一个非常常见的应用场景,很多时候,我们需要根据自己需要排序的数据类型,来自定义排序算法,但是,在这里,我们只介绍这些基础排序算法,包括:插入排序.选择排序.冒泡排 ...
leetcode算法总结
算法思想二分查找贪心思想双指针排序快速选择堆排序桶排序搜索 BFS DFS Backtracking 分治动态规划分割整数矩阵路径斐波那契数列最长递增子序列最长公共子系列 ...
Leedcode算法专题训练（排序）
排序快速排序用于求解 Kth Element 问题,也就是第 K 个元素的问题. 可以使用快速排序的 partition() 进行实现.需要先打乱数组,否则最坏情况下时间复杂度为 O(N2). 堆 ...
[数据结构]——堆（Heap）、堆排序和TopK
堆(heap),是一种特殊的数据结构.之所以特殊,因为堆的形象化是一个棵完全二叉树,并且满足任意节点始终不大于(或者不小于)左右子节点(有别于二叉搜索树Binary Search Tree).其中,前 ...
堆的源码与应用：堆排序、优先队列、TopK问题
1.堆堆(Heap))是一种重要的数据结构,是实现优先队列(Priority Queues)首选的数据结构.由于堆有很多种变体,包括二项式堆.斐波那契堆等,但是这里只考虑最常见的就是二叉堆(以下简称 ...
关于堆排序和topK算法的PHP实现
问题描述 topK算法,简而言之,就是求n个数据里的前m大个数据,一般而言,m<<n,也就是说,n可能有几千万,而m只是10或者20这样的两位数. 思路最简单的思路,当然是使用要先对这n ...
python堆排序实现TOPK问题
# 构建小顶堆跳转def sift(li, low, higt): tmp = li[low] i = low j = 2 * i + 1 while j <= higt: # 情况2:i已经是 ...

随机推荐

mycat+mysql集群:实现读写分离，分库分表
1.mycat文档:https://github.com/MyCATApache/Mycat-doc 官方网站:http://www.mycat.org.cn/ 2.mycat的优点: 配 ...
Ubuntu18.10下配置PHP7.2 + Apache2 + Mysql5.7
方案1:集成解决方案 1.lnmphttps://lnmp.org/ 2.xampphttps://www.apachefriends.org/zh_cn/index.html 3.oneinstac ...
[原创]windows 部署SS server 出现的错误.
安装过程: .Download and install Python MSI installer in 64bit Windows. .During installation you should i ...
原生js添加博客点击鼠标出小心心效果~~
昨天刚申请成功JS权限,心血来潮想添加点东西,记得之前看到别人家博客首页点击鼠标的时候会出现炫酷的 “小心心”,自己也来搞一个.没有用jquery啥的框架,原生js写起来麻烦了点,不过主要是怕博客首页 ...
bower 基础认识
bower 跟 npm 很像都是管理包的工具只是 bower 偏向前端 npm 前后都能管理 npm init 后是生产 package.json 下载的包在node_modules文件下 ...
在命令行输入python出现“Warning:This Python interpreter is in a conda environment, but the environment has not been activated. Libraries may fail to load. To activate this environment please see https://conda.
[现象] 在命令行输入python出现“Warning:This Python interpreter is in a conda environment, but the environment h ...
Use try-with-resources
public void doQueries() throws MyException{ // First try-with-resources. try ( Connection con = Driv ...
如何修改build之后生成的文件结构和路径
因为公司项目结构的原因, 被要求要build之后的文件夹结构要修改为: dist (文件夹) statics (文件夹) mobile (文件夹) ----> 存放原本 build 之后存在 ...
WPF使用总结
ListboxItemContainer样式一般items控件的项模板很容易设置DataTemplate就可以了,比如listbox .但是在选中和失去焦点的时候却是Windows自带的那种 ...
Java EE ----- Container/Injection
容器(container)是一个类,实际上是component的子类,因此容器本身也是一个组件,具有组件的所有性质,但是它的主要功能是容纳其他组件和容器. 对于开发人员,需要引入复杂的代码解决事务以及 ...

堆排序应用之topK问题

堆排序应用之topK问题的更多相关文章

随机推荐

热门专题