从海量数据中寻找出topK的最优算法代码

package findMinNumIncludedTopN;
/**
* 小顶堆
* @author TongXueQiang
* @date 2016/03/09
* @since JDK 1.8
*/
public class MinHeap {
int[] heap;
int heapsize;

public MinHeap(int[] array) {
  this.heap = array;
  this.heapsize = heap.length;
}

/**
* 构建小顶堆
*/
public void BuildMinHeap() {
  for (int i = heapsize / 2 - 1; i >= 0; i--) {
   Minify(i);// 依次向上将当前子树最大堆化
  }
}

/**
* 堆排序
*/
public void HeapSort() {
  for (int i = 0; i < heap.length; i++) {
   // 执行n次，将每个当前最大的值放到堆末尾
   swap(heap,0,heapsize-1);
   heapsize--;
   Minify(0);
  }
}

/**
* 对非叶节点调整
* @param i
*/
public void Minify(int i) {
  int l = 2*i + 1;
  int r = 2*i + 2;
  int min;

if (l < heapsize && heap[l] < heap[i])
   min = l;
  else
   min = i;
  if (r < heapsize && heap[r] < heap[min])
   min = r;
  if (min == i || min >= heapsize)// 如果largest等于i说明i是最大元素
            // largest超出heap范围说明不存在比i节点大的子女
   return;
  swap(heap,i,min);
  Minify(min);
}

private void swap(int[] heap, int i, int min) {
  int tmp = heap[i];// 交换i与largest对应的元素位置，在largest位置递归调用maxify
  heap[i] = heap[min];
  heap[min] = tmp;
}

public void IncreaseValue(int i, int val) {
  heap[i] = val;
  if (i >= heapsize || i <= 0 || heap[i] >= val)
   return;
  int p = Parent(i);
  if (heap[p] >= val)
   return;
  heap[i] = heap[p];
  IncreaseValue(p, val);
}

private int Parent(int i) {
return (i - 1) / 2;
}
}

package findMinNumIncludedTopN;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;

/**
* 从海量数据中查找出前k个最大值，精确时间复杂度为：k + (n - k) * lgk,空间复杂度为 O（k）,目前为所有算法中最优算法
*
* @author TongXueQiang
* @date 2016/03/08
* @since JDK 1.8
*/
public class FindMinNumIncluedTopN {
/**
* 从海量数据中查找出前k个最大值
*
* @param k
* @return
* @throws IOException
*/
public int[] findMinNumIncluedTopN(int k) throws IOException {
  Long start = System.nanoTime();

  int[] array = new int[k];
  int index = 0;
  // 从文件导入海量数据
  BufferedReader reader = new BufferedReader(new FileReader(new File("F:/number.txt")));
  String text = null;
  // 先读出前n条数据,构建堆
  do {
   text = reader.readLine();
   if (text != null) {
    array[index++] = Integer.parseInt(text);
   }
  } while (text != null && index <= k - 1);

  MinHeap heap = new MinHeap(array);//初始化堆
  for (int i : heap.heap) {
   System.out.print(i + " ");
  }

  heap.BuildMinHeap();//构建小顶堆
  System.out.println();
  System.out.println("构建小顶堆之后:");
  for (int i : heap.heap) {
   System.out.print(i + " ");
  }
  System.out.println();
  // 遍历文件中剩余的n（文件数据容量，假设为无限大）-k条数据，如果读到的数据比heap[0]大，就替换之，同时更新堆
  while (text != null) {
   text = reader.readLine();
   if (text != null && !"".equals(text.trim())) {
    if (Integer.parseInt(text) > heap.heap[0]) {
     heap.heap[0] = Integer.parseInt(text);
     heap.Minify(0);//调整小顶堆
    }
   }
  }
  //最后对堆进行排序(默认降序)
  heap.HeapSort();

  Long end = System.nanoTime();
  double time = (end - start) / Math.pow(10,9);
  System.out.println("用时："+ time + "秒");
  for (int i : heap.heap) {
   System.out.println(i);
  }
  return heap.heap;
}
}

从海量数据中寻找出topK的最优算法代码的更多相关文章

海量数据中找出前k大数（topk问题）
海量数据中找出前k大数(topk问题) 前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小 ...
原创：从海量数据中查找出前k个最小或最大值的算法（java）
现在有这么一道题目:要求从多个的数据中查找出前K个最小或最大值分析:有多种方案可以实现.一.最容易想到的是先对数据快速排序,然后输出前k个数字. 二.先定义容量为k的数组,从源数据中取出前k个填 ...
面试突击 | Redis 如何从海量数据中查询出某一个 Key？附视频
1 考察知识点本题考察的知识点有以下几个: Keys 和 Scan 的区别 Keys 查询的缺点 Scan 如何使用? Scan 查询的特点 2 解答思路 Keys 查询存在的问题 Scan 的使用 ...
【风马一族_C】c语言版，在2到n中寻找出所有的素数
#include <iostream> #include <stdio.h> #include <math.h> /* run this program using ...
Redis实战（20）Redis 如何从海量数据中查询出某一个 Key？
序言资料 https://www.cnblogs.com/vipstone/p/12373734.html
海量数据中的TOPK问题小结
1.利用堆找出最大的K个数首先,先理解下用堆找出最大的K个数的常用解法,例如问题是“从M(M <= 10000)个数中找出最大的K个数” (1)利用最大堆建立一个N=M大小的大顶堆,然后输出 ...
海量数据处理 - 10亿个数中找出最大的10000个数（top K问题）
前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好一些. 先拿10000个数建堆, ...
【跟着子迟品 underscore】如何优雅地写一个『在数组中寻找指定元素』的方法
Why underscore (觉得这部分眼熟的可以直接跳到下一段了...) 最近开始看 underscore.js 源码,并将 underscore.js 源码解读放在了我的 2016 计划中. ...
hdu 1595 find the longest of the shortest【最短路枚举删边求删除每条边后的最短路，并从这些最短路中找出最长的那条】
find the longest of the shortest Time Limit: 1000/5000 MS (Java/Others) Memory Limit: 32768/32768 ...

随机推荐

fulltext全文索引的使用
Fulltext全文索引 Fulltext相关属性查看数据库关于fulltext的配置 SHOW VARIABLES LIKE 'ft%'; -- ft就是FullText的简写 ft_boolea ...
js获取列表多条数据(接口)
读取数据://ajax去服务器端校验 $.ajax({ type:"post", url:"http://", data:{deviceid:1}, dataT ...
CCProxy代理
只要局域网内有一台机器能够上网,其他机器就可以通过这台机器上安装的CCProxy来代理共享上网,最大程度的减少了硬件费用和上网费用.只需要在服务器上CCProxy代理服务器软件里进行帐号设置,就可以方 ...
linux技能五文件权限
文件权限:-rw-r--r--. 1 fileInUser fileInGroup 1623 5月 4 19:33 fileName -:第一个-是文件类型 rw-:文件的所有者权限 r--:文件的 ...
【知识点整理】Oracle中NOLOGGING、APPEND、ARCHIVE和PARALLEL下，REDO、UNDO和执行速度的比较
[知识点整理]Oracle中NOLOGGING.APPEND.ARCHIVE和PARALLEL下,REDO.UNDO和执行速度的比较 1 BLOG文档结构图 2 前言部分 2.1 导读和注意事项 ...
【RAC】 RAC For W2K8R2 安装--dbca创建数据库(七)
[RAC] RAC For W2K8R2 安装--dbca创建数据库(七) 一.1 BLOG文档结构图一.2 前言部分一.2.1 导读各位技术爱好者,看完本文后,你可以掌握如下的技能,也可 ...
vue echarts中绑定的click函数无法引用vue实例data里面的数据
在使用echarts的时候,需要在触发click事件之后去修改实例data里面的数据,可是发现用this引用后总是出现undefined, 解决办法: myChart.on('click', (par ...
elasticsearch获取字段missing的数据
用head查询: demo如下 http://localhost:9200/sj_0505/lw_point_location/ _search post { "query": { ...
Windows环境下的MYSQL5.7配置文件定位
1.MYSQL安装目录 select @@basedir; 2.MYSQL数据文件目录 select @@datadir; 3.相应地,配置文件在数据文件上一级目录中 4.停止MYSQL服务 net ...
Flask入门到放弃（五）—— 蓝图
转载请在文章开头附上原文链接地址:https://www.cnblogs.com/Sunzz/p/10980094.html 蓝图 Blueprint 模块化随着flask程序越来越复杂,我们需要对 ...

从海量数据中寻找出topK的最优算法代码

从海量数据中寻找出topK的最优算法代码的更多相关文章

随机推荐

热门专题