问题描述

topK算法,简而言之,就是求n个数据里的前m大个数据,一般而言,m<<n,也就是说,n可能有几千万,而m只是10或者20这样的两位数。

思路

最简单的思路,当然是使用要先对这n个数据进行排序,因为只有排序以后,才能按照顺序来找出排在前面的,或者排在后面的数据。

假如说我们用快拍,那么时间复杂度是O(nlogn),但是仔细看题目,会发现实际上不要要将所有的数据就进行排序,因为我们找的是前m个数据,所以对所有数据排序实际上有些浪费了。所以可以想到,只维护一个大小为m的数组,然后扫一遍原来的数组n,只将大于数组m里的最小值的数据插入到m数组里,并且重新调整m数组的顺序。

如果使用朴素的方法对m数组进行调整,那么时间复杂度将会是O(n*m),这显然不是最优的结果。对于维护的数组m,我们可以通过维护一个堆结构,来达到每次排序O(logm)的时间复杂度,这样topK算法,总体的复杂度也就变成了O(nlogm)。

关于堆

二叉堆是完全二叉树或者是近似完全二叉树。

二叉堆满足二个特性:

1.父结点的键值总是大于或等于(小于或等于)任何一个子节点的键值。

2.每个结点的左子树和右子树都是一个二叉堆(都是最大堆或最小堆)。

当父结点的键值总是大于或等于任何一个子节点的键值时为最大堆。当父结点的键值总是小于或等于任何一个子节点的键值时为最小堆。下图展示一个最小堆:一般都用数组来表示堆,i结点的父结点下标就为(i – 1) / 2。它的左右子结点下标分别为2 * i + 1和2 * i + 2。如第0个结点左右子结点下标分别为1和2。

PHP实现的堆

  1. class Heap {
  2.  
  3. protected $listSize;
  4.  
  5. protected $tree;
  6.  
  7. public function __construct($list) {
  8.  
  9. $this->listSize = count($list);
  10.  
  11. $i = 1;
  12.  
  13. foreach ($list as $li) {
  14.  
  15. $this->tree[$i++] = $li;
  16.  
  17. }
  18.  
  19. unset($list);
  20.  
  21. $this->initHeap();
  22.  
  23. }
  24.  
  25. public function getSortedResult() {
  26.  
  27. $this->initHeap();
  28.  
  29. $this->sortHeap();
  30.  
  31. return $this->tree;
  32.  
  33. }
  34.  
  35. public function getHeapResult() {
  36.  
  37. return $this->tree;
  38.  
  39. }
  40.  
  41. public function getTopNode() {
  42.  
  43. return $this->tree[1];
  44.  
  45. }
  46.  
  47. public function setTopNode($value) {
  48.  
  49. $this->tree[1] = $value;
  50.  
  51. $this->adjustHeap(1, $this->listSize);
  52.  
  53. }
  54.  
  55. public function sortHeap() {
  56.  
  57. for ($end = $this->listSize; $end > 1; $end--) {
  58.  
  59. $this->swap($this->tree[1], $this->tree[$end]);
  60.  
  61. $this->adjustHeap(1, $end - 1);
  62.  
  63. }
  64.  
  65. }
  66.  
  67. private function initHeap() {
  68.  
  69. for ($start=floor($len / 2); $start >= 1; $start--) {
  70.  
  71. $this->adjustHeap($start, $this->listSize);
  72.  
  73. }
  74.  
  75. }
  76.  
  77. private function adjustHeap($start, $len) {
  78.  
  79. $tmp = $start; // 临时变量,用于保存最大值或者最小值的下标索引
  80.  
  81. $lChildInx = $start * 2;
  82.  
  83. $rChildInx = $lChildInx + 1;
  84.  
  85. if ($start <= floor($len / 2)) {
  86.  
  87. if($lChildInx <= $len && $this->tree[$lChildInx] < $this->tree[$tmp]) {
  88.  
  89. $tmp = $lChildInx;
  90.  
  91. }
  92.  
  93. if($rChildInx <= $len && $this->tree[$rChildInx] < $this->tree[$tmp]) {
  94.  
  95. $tmp = $rChildInx;
  96.  
  97. }
  98.  
  99. if ($tmp != $start) {
  100.  
  101. $this->swap($this->tree[$tmp], $this->tree[$start]);
  102.  
  103. $this->adjustHeap($tmp, $len);
  104.  
  105. }
  106.  
  107. }
  108.  
  109. }
  110.  
  111. private function swap(&$a, &$b) {
  112.  
  113. $temp = $a;
  114.  
  115. $a = $b;
  116.  
  117. $b = $temp;
  118.  
  119. }
  120.  
  121. }

topK

  1. include 'Heap.class.php';
  2.  
  3. $list = range(1,10000);
  4.  
  5. shuffle($list);
  6.  
  7. $k = 15;
  8.  
  9. $initHeapNodes = array_slice($list, 0, $k);
  10.  
  11. $heap = new Heap($initHeapNodes);
  12.  
  13. $n = count($list);
  14.  
  15. for ($i=$k; $i<$n; $i++) {
  16.  
  17. if ($list[$i] > $heap->getTopNode()) {
  18.  
  19. $heap->setTopNode($list[$i]);
  20.  
  21. }
  22.  
  23. }
  24.  
  25. print_r($heap->getSortedResult());

关于堆排序和topK算法的PHP实现的更多相关文章

  1. java TopK算法

    现有一亿个数据,要求从其中找出最小的一万个数,希望所需的时间和空间最小,也就是所谓的topK问题 TopK问题就是从海量的数据中取最大(或最小的)的K个数. TopK问题其实是有线性时间复杂度的解的, ...

  2. (转)基于快速排序的TOPK算法

    基于快速排序的TOPK算法 转自:http://blog.csdn.net/fanzitao/article/details/7617223 思想: 类似于快速排序,首先选择一个划分元,如果这个划分元 ...

  3. [数据结构]——堆(Heap)、堆排序和TopK

    堆(heap),是一种特殊的数据结构.之所以特殊,因为堆的形象化是一个棵完全二叉树,并且满足任意节点始终不大于(或者不小于)左右子节点(有别于二叉搜索树Binary Search Tree).其中,前 ...

  4. 堆排序与优先队列——算法导论(7)

    1. 预备知识 (1) 基本概念     如图,(二叉)堆是一个数组,它可以被看成一个近似的完全二叉树.树中的每一个结点对应数组中的一个元素.除了最底层外,该树是完全充满的,而且从左向右填充.堆的数组 ...

  5. topk算法

    方法一 堆排序 自建堆 heapMax方法,从上至下调整堆 pop时,可以使用自上而下调整堆,调用heapMax(arr,0,sz-1); push时,需要自下到上调整即 从上到下调整: void h ...

  6. topK 算法

    搜索引擎热门查询统计 题目描述:    搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节.    假设目前有一千万个记录(这些查询串的重复度比较高,虽然 ...

  7. python堆排序实现TOPK问题

    # 构建小顶堆跳转def sift(li, low, higt): tmp = li[low] i = low j = 2 * i + 1 while j <= higt: # 情况2:i已经是 ...

  8. Python 实现转堆排序算法原理及时间复杂度(多图解释)

    原创文章出自公众号:「码农富哥」,欢迎转载和关注,如转载请注明出处! 堆基本概念 堆排序是一个很重要的排序算法,它是高效率的排序算法,复杂度是O(nlogn),堆排序不仅是面试进场考的重点,而且在很多 ...

  9. 堆排序算法 java 实现

    堆排序算法 java 实现 白话经典算法系列之七 堆与堆排序 Java排序算法(三):堆排序 算法概念 堆排序(HeapSort)是指利用堆积树(堆)这种数据结构所设计的一种排序算法,可以利用数组的特 ...

随机推荐

  1. 循序渐进Python3(五) -- 初识模块

    什么是模块? 模块,用一组代码实现了某个功能的代码集合. 类似于函数式编程和面向过程编程,函数式编程则完成一个功能,其他代码用来调用即可,提供了代码的重用性和代码间的耦合.而对于一个复杂的功能来,可能 ...

  2. RedHat下安装OPENCV

    1.解压 unzip opencv-2.4.9.zip 2.进入目录,cmake CMakeLists.txt  生成build文件 3.使用命令 make 编译 4.使用命令 make instal ...

  3. Spring aop——前置增强和后置增强 使用注解Aspect和非侵入式配置

    AspectJ是一个面向切面的框架,它扩展了java语言,定义了AOP语法,能够在编译期提供代码的织入,所以它有一个专门的编译器用来生成遵守字节码字节编码规范的Class文件 确保使用jdk为5.0以 ...

  4. AndroidStudio调试APP

    AndroidStudio调试APP 电脑用数据线连上手机 开启手机的开发者模式 注:通常连续狂点手机的版本号即可显示出开发者选项,然后进入菜单,勾选开发者选项.USB调试. 给程序加断点 单击调试按 ...

  5. redis密码管理

    redis 默认密码是空,在应用中,通常需要设置redis的连接密码,可通过命名方式进行密码管理: 1.连接redis: [redis@hadooptest Downloads]$ cd redis- ...

  6. js灵活打印web页面区域内容的通用方法

      我们做网站,经常需要打印页面指定区域的内容,而网上关于这块的说法很多,各种各样的打印控件也不少.但许多打印方案都不怎么好,至少我不喜欢,要么封装复杂,要么难以维护.正好现在的项目也需要用到 ...

  7. POJ 3180-The Cow Prom (图论-有向图强联通tarjan算法)

    题目大意:有n个牛在一块, m条单项绳子, 有m个链接关系, 问有多少个团体内部任意两头牛可以相互可达 解题思路:有向图强连通分量模版图 代码如下: #include<stdio.h> # ...

  8. Python环境下NIPIR(ICTCLAS2014)中文分词系统使用攻略

    一.安装 官方链接:http://pynlpir.readthedocs.org/en/latest/installation.html 官方网页中介绍了几种安装方法,大家根据个人需要,自行参考!我采 ...

  9. 统计学习方法笔记 Logistic regression

    logistic distribution 设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数: 式中,μ为位置参数,γ>0为形状参数. 密度函数是脉冲函数 分布函数是一条S ...

  10. loadrunner11录制报 NOT PROXIED!错误,无法生成脚本

    使用loadrunner11,IE9录制完脚本,报错: [Net An. Error    (1dec:282c)] Request Connection: Remote Server @ 210.5 ...