堆实战(动态数据流求top k大元素,动态数据流求中位数)

动态数据集合中求top k大元素

第1大，第2大 ...第k大
k是这群体里最小的
所以要建立个小顶堆
只需要维护一个大小为k的小顶堆 即可
当来的元素(newCome)> 堆顶元素(smallTop),说明进来的元素有和堆顶竞争的资格,此时的堆顶被踢出 这时把进来的元素放到堆顶
newCome>smallTop,smallTop的左右孩子>smallTop,所以无法确认 newCome和smallTop的左右孩子的大小关系，
在newCome和smallTop的左右子节点找到最小的元素和newCome交换，然后继续比较newCome与被交换的左右孩子的大小关系
持续这个过程(堆化)即可

如果每次询问前K大数据，我们都基于当前的数据重新计算的话，那时间复杂度就是O(nlogK)，n表示当前的数据的大小

部分代码

topn.php

$static_data=[2,5,3,1,0,7,6,10];
//第3大
/*
2,5,3               2
2,5,3 1             2
2,5,3,1,0           2
2,5,3,1,0,7         3
2,5,3,1,0,7,6       5
2,5,3,1,0,7,6,10    6
维持1个小顶堆 大小为3即可
*/
$heap=new Heap(3); //建立一个大小为3的小顶堆
foreach ($static_data as $v){
    echo $heap->topn($v).PHP_EOL;
}

heap.php

public function topn($data)
{
    //堆满了
    if ($this->isFull()) {
        if ($data > $this->dataArr[1]) {
            $this->dataArr[1] = $data;
            $this->smallHeapFirst();
        }
    } else {
        $this->dataArr[$this->count + 1] = $data;
        $this->count++;
        $this->smallHeapLast();
    }
    return $this->dataArr[1];
}

完整代码

动态数据流求中位数

2,3,1,7,5       返回3
1,3,1,7,5,4     返回3,4
数据持续往里面进，每进来一个数，就询问中位数是谁们

step1 思路分析:


所谓中位数，就是中间大的1个或者2个元素，中位数满足的性质，中位数之前的数都它，之后的数都大于它
先以奇数个分析，偶数个原理一样
1.如果是固定的数据集合，比如数据为n个，中位数即为n/2+1 大的元素，此时只需维护一个大小为(n/2+1) 大小的小顶堆即可
    为什么不能是大顶堆呢，如果堆顶最大，除了知能找到这群集合的最大值外，其它的都无从知晓了
    如果是小顶堆，堆顶最小，数据集合比如为5个，第3大的元素肯定小于已经比较过的前2个数，即为中间元素
    但是现在是动态数据流，每次进来1个元素，都会询问中间元素
    和静态数据的区别是:不知道维护的小顶堆的大小了
    这时需要维护2个堆了，来了数据，分别放到这2个堆
    1个大顶堆，1个小顶堆，大顶堆的数据均小于小顶堆的数据，当要询问的时候
    如果是偶数个数据，两个堆的堆顶元素即为中间元素
    如果奇数个数据，两个堆中数据较多的那个堆的堆顶元素即为中间元素

step1 步骤分析

大顶堆为big,堆顶元素bigpeak,大小为bigsize,小顶堆称small,堆顶元素为smallpeak,大小为smallsize
进来1个元素，big为空  :放入big
             big不为空:
                        放入元素<bigpeak，放入到big
                        放入元素>bigpeak, 放入到small
             放入1个元素完成后
                    如果bigsize-smallsize>1,把big元素的堆顶元素拿掉 堆化big,把拿掉的元素放入small 然后堆化
                    如果bigsize-smallsize<1,把small元素的堆顶元素拿掉 堆化small,把拿掉的元素放入big 然后堆化

findmiddle.php

$arr = [9, 8, 11, 4, 2, 6, 5, 1, -1, 3, 20, 10];
//$arr=[9,8,11,4,2,6,5,100];
findMiddle($arr);
//动态数据实时获取中位数
function findMiddle($arr)
{
    //大顶堆
    $bigHeap = new Heap(0, 1);
    //小顶堆
    $smallHeap = new Heap(0, 0);
    foreach ($arr as $k => $v) {
        if ($bigHeap->isEmpty()) {
            $bigHeap->insert($v);
        } else {
            $bigPeak = $bigHeap->peak();
            if ($v < $bigPeak) {
                $bigHeap->insert($v);
            } else {
                $smallHeap->insert($v);
            }
            if ($bigHeap->count - $smallHeap->count > 1) {
                $bigPeak = $bigHeap->deleteFirst();
                $smallHeap->insert($bigPeak);
            } elseif ($smallHeap->count - $bigHeap->count > 1) {
                $smallPeak = $smallHeap->deleteFirst();
                $bigHeap->insert($smallPeak);
            }
        }
        //实时获取中位数
        echo implode(',', midPeak($bigHeap, $smallHeap)) . PHP_EOL;
    }
}
function midPeak($heap1, $heap2)
{
    if ($heap1->count == $heap2->count) {
        $midArr = [$heap1->peak(), $heap2->peak()];
    } elseif ($heap2->count > $heap1->count) {
        $midArr = [$heap2->peak()];
    } else {
        $midArr = [$heap1->peak()];
    }
    return $midArr;
}

过程分析

几个重要的点

两个堆元素数相等时中间元素为两个堆顶

否者为较多元素堆的堆顶
两者元素个数差值大于1时，要调整堆的元素个数

依次插入的元素 为 9, 8, 11, 4, 2, 6, 5, 1, -1, 3, 20, 10，大顶堆 称为big,小顶堆称为small,各自大小bigsize,smallsize,堆顶为bigpeak，smallpeak,
9进来  big为空，插入big, bigsize-smallsize=1  不大于1
            此时bigsize>smallsize  中间元素为bigpeak即为[9]
8进来  8<bigpeak,  插入big,bigsize-smallsize=2 大于1
            此时bigpeak 需要从Big删除，big堆化，放入到small ，small堆化 ,此时bigsize=smallsize  所以中间元素为[bigpeak,smallpeak] 即为[8,9]
11进来 11>bigpeak(8),11插入small,此时smallsize=2,bigsize=1,差值不大于1，因为smallsize>bigsize,中间元素为[smallpeak] 即为[9]
4进来  4<bigpeak(8),4插入到big,big堆化，此时bigsize=2,smallsize=2,中间元素为[bigpeak,smallpeak] 即为[8,9]

此时堆图

2进来 2<8 ,2插入big然后堆化，bigsize=3,smallsize=2 所以此时中位数为[8]
6进来 6<8,6插入big后堆化 为下图

 此时,bigsize=4,smallsize=2,bigsize-smallsize>1,删除big的堆顶元素 堆化，然后把把删除的元素插入到small，堆化后
 此时big,small见下图,中间元素位[bigpeak,smallpeak]即 [6,8]

5进来 5<bigpeak(8),5插入big堆化
此时Bigsize=4,smallsize=3,差值不大于1，中间元素位bigpeak 即为[6]
之后的步骤同理

插入数据因为需要涉及堆化，所以时间复杂度变成了O(logn)，但是求中位数我们只需要返回大顶堆的堆顶元素就可以了，所以时间复杂度就是O(1)

完整代码

堆实战(动态数据流求top k大元素,动态数据流求中位数)的更多相关文章

算法导论学习之线性时间求第k小元素+堆思想求前k大元素
对于曾经,假设要我求第k小元素.或者是求前k大元素,我可能会将元素先排序,然后就直接求出来了,可是如今有了更好的思路. 一.线性时间内求第k小元素这个算法又是一个基于分治思想的算法. 其详细的分治思 ...
面试题：求第K大元素（topK）?
一.引言二.普通算法算法A:算法B:三.较好算法算法C:算法D:四.总结一.引言这就是类似求Top(K)问题,什么意思呢?怎么在无序数组中找到第几(K)大元素?我们这里不考虑海量数据,能装入内 ...
ACM_求第k大元素（两次二分）
求第k大 Time Limit: 6000/3000ms (Java/Others) Problem Description: 给定两个数组A和B,大小为N,M,每次从两个数组各取一个数相乘放入数组C ...
行列有序矩阵求第k大元素
问题来源:http://www.careercup.com/question?id=6335704 问题描述: Given a N*N Matrix. All rows are sorted, and ...
【Leetcode堆】数据流中的第K大元素（703）
题目设计一个找到数据流中第K大元素的类(class).注意是排序后的第K大元素,不是第K个不同的元素. 你的 KthLargest 类需要一个同时接收整数 k 和整数数组nums 的构造器,它包含数 ...
Leetcode 703. 数据流中的第K大元素
1.题目要求设计一个找到数据流中第K大元素的类(class).注意是排序后的第K大元素,不是第K个不同的元素. 你的 KthLargest 类需要一个同时接收整数 k 和整数数组nums 的构造器, ...
[Swift]LeetCode703. 数据流中的第K大元素 | Kth Largest Element in a Stream
Design a class to find the kth largest element in a stream. Note that it is the kth largest element ...
数据流中的第k大元素的golang实现
设计一个找到数据流中第K大元素的类(class).注意是排序后的第K大元素,不是第K个不同的元素. 你的 KthLargest 类需要一个同时接收整数 k 和整数数组nums 的构造器,它包含数据流中 ...
[LeetCode解题报告] 703. 数据流中的第K大元素
题目描述设计一个找到数据流中第K大元素的类(class).注意是排序后的第K大元素,不是第K个不同的元素. 你的 KthLargest 类需要一个同时接收整数 k 和整数数组nums 的构造器,它包 ...

随机推荐

IT技术管理者的自我修养
1. 前言本来写<IT技术管理者的自我修养>与<IT技术人员的自我修养>是一开始就有的想法.但发表<IT技术人员的自我修养>后,收到了不少良好的反馈,博客园的编辑 ...
Windows 纠错
4:在Windows应用程序中,当需要将窗体显示为模式对话框时,需要调用窗体的()方法.(选择一项)A:Activate()B:ShowDialog()C:Show()D:Close()正确答案是 B ...
HTML第六章盒子模型
什么是盒子模型: (1)边框: (2)内边距: (3)外边距: (4)元素内容·: (5)背景色·: 边框: 属性: 颜色(border-color),粗细(border-width),样式(bord ...
（数据科学学习手札66）在ubuntu服务器上部署shiny
一.简介 shiny是R中专门用于开发轻量级web应用的框架,在本地写一个shiny应用并调用非常方便,但如果你希望你的shiny应用能够以远程的方式提供给更多人来使用,就需要将写好的shiny应用部 ...
C#_会员管理系统
https://www.cnblogs.com/start-from-scratch/p/5420588.html
SpringBoot打包部署简单说明
SpringBoot项目打包部署一.jar包方式这种使用SpringBoot内嵌的Tomcat进行部署打包方式默认jar,所以下面加也行,不加也行 <packaging>war< ...
springboot启动慢解决方法
jdk的配置文件中,使用securerandom.source设置了熵源: cat /usr/java/jdk1.8.0_121/jre/lib/security/java.security secu ...
使用flask-restful搭建API
最简单的例子 ---~~~~ 访问http://127.0.0.1:5000/ , 返回{"hello": "world"} from flask import ...
C# - 协变、逆变看完这篇就懂了
1. 基本概念官方:协变和逆变都是术语,前者指能够使用比原始指定的派生类型的派生程度更大(更具体的)的类型,后者指能够使用比原始指定的派生类型的派生程度更小(不太具体的)的类型.[MSDN] 公式: ...
pt-online-schema-change使用详解
一.pt-online介绍 pt-online-schema-change是percona公司开发的一个工具,在percona-toolkit包里面可以找到这个功能,它可以在线修改表结构原理: 首先 ...

堆实战(动态数据流求top k大元素,动态数据流求中位数)

动态数据集合中求top k大元素

动态数据流求中位数

step1 思路分析:

step1 步骤分析

过程分析

几个重要的点

堆实战(动态数据流求top k大元素,动态数据流求中位数)的更多相关文章

随机推荐

热门专题