概述

在N个乱序数字中查找第K大的数字，时间复杂度可以减小至O(N).

可能存在的限制条件：

要求时间和空间消耗最小、海量数据、待排序的数据可能是浮点型等。

方法

方法一

对所有元素进行排序，之后取出前K个元素，时间复杂度高，不提倡。 *

思路：使用快排，选择排序，堆排序。

时间复杂度：排序复杂度nlogn，最后要访问第K个元素，因此是O(n*logn)+O(K)=O(n*logn)

特点：需要对全部元素进行排序，K=1时，时间复杂度也为O(n*logn)。

方法二

只需要对前K个元素排序，剩下N-K个元素不需要排序，时间复杂度高，不提倡。 *

思路：使用选择排序或冒泡排序，进行K此选择，可得到第K大的数。

时间复杂度：每一次大循环遍历复杂度是n,共遍历K次，因此是O(n*k)

def selectionSort(arr, k):

    length = len(arr)

    minIndex = 0

    for i in range(length):

        minIndex = i

        for j in range(i+1,length):

            if arr[j] < arr[minIndex]:

                minIndex = j

        arr[i], arr[minIndex] = arr[minIndex], arr[i]

        if i == k:

            return arr[:k]

    return arr

arr = [3,4,9,2,1,0,-10]

print(selectionSort(arr, 3))

方法三

不对前K个数排序+不对N-K个数排序 *

思路：寻找第K个大元素

具体方法：使用类似快排，执行一次快排后，每次只选择一部分继续执行快排，直到找到第K个大元素为止，此时这个元素在数组位置后面的元素即所求。

时间复杂度：

若随机选取枢纽，线性期望时间O(N)
若选取数组的“中位数的中位数”作为枢纽，最坏情况下的时间复杂度O(N)

利用快排的思想，从数组S中随机找出一个元素X，把数组分为两部分Sa和Sb。Sa中的元素大于等于X，Sb中元素小于X。这时有两种情况：

Sa中元素的个数小于k,则Sb中的第k-|Sa|个元素即为第k大数；
Sa中元素的个数大于等于k，则返回Sa中的第k大数。

利用快排的partion思想T(n) = 2T(n/2) + O(1) 时间复杂度为O(n)

该方法只有当我们可以修改输入的数组时可用，位于数组左边的k个数字就是最小的k个数字(但这k个数字不一定是排序的)，位于第k个数右边的数字都比第k个数字大。

topK问题的更多相关文章

[数据结构]——堆（Heap）、堆排序和TopK
堆(heap),是一种特殊的数据结构.之所以特殊,因为堆的形象化是一个棵完全二叉树,并且满足任意节点始终不大于(或者不小于)左右子节点(有别于二叉搜索树Binary Search Tree).其中,前 ...
关于堆排序和topK算法的PHP实现
问题描述 topK算法,简而言之,就是求n个数据里的前m大个数据,一般而言,m<<n,也就是说,n可能有几千万,而m只是10或者20这样的两位数. 思路最简单的思路,当然是使用要先对这n ...
MapReduce实现TopK的示例
由于开始学习MapReduce编程已经有一段时间了,作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲,手开始变得很“痒”了,很想小试一下身手.于是自己编写了TopK的代码.TopK的意思就是从原文 ...
InAction-MR的topK
本来只是想拿搜狗的数据练练手的,却无意踏足MR的topK问题.经过几番波折,虽然现在看起来很简单,但是摸爬滚打中也学到了不少数据是搜狗实验室下的搜索日志,格式大概为: 00:00:00 298219 ...
MapReduce TopK统计加排序
Hadoop技术内幕中指出Top K算法有两步,一是统计词频,二是找出词频最高的前K个词.在网上找了很多MapReduce的Top K案例,这些案例都只有排序功能,所以自己写了个案例. 这个案例分两个 ...
[151225] Python3 实现最大堆、堆排序，解决TopK问题
参考资料: 1.算法导论,第6章,堆排序堆排序学习笔记及堆排序算法的python实现 - 51CTO博客堆排序 Heap Sort - cnblogs 小根堆实现优先队列:Python实现 -cn ...
Topk引发的一些简单的思考
软件工程课程的一个题目:写一个程序,分析一个文本文件中各个词出现的频率,并且把频率最高的10个词打印出来.文本文件大约是30KB~300KB大小. 首先说一下这边的具体的实现都是在linux上实现的. ...
hadoop记录topk
lk@lk-virtual-machine:~$ cd hadoop-1.0.1 lk@lk-virtual-machine:~/hadoop-1.0.1$ ./bin dfs -mkdir inpu ...
Python使用heapq实现小顶堆（TopK大）、大顶堆（BtmK小）
Python使用heapq实现小顶堆(TopK大).大顶堆(BtmK小) | 四号程序员 Python使用heapq实现小顶堆(TopK大).大顶堆(BtmK小) 4 Replies 需1求:给出N长 ...
Mapreduce TopK
思想比较简单,就是每个通过map来获取当前的数据块中的的topk个数据,然后将他们以相同的key值放到reduce中,最后通过reduce来对这n*k个数据排序并获得topk个数据.具体的就是建立 ...

随机推荐

Mybatis二级缓存的简单应用
1.接口 public interface MemberMapperCache { public Members selectMembersById(Integer id); } 2.POJO类实现 ...
Python Scrapy 爬虫框架实例
之前有介绍 scrapy 的相关知识,但是没有介绍相关实例,在这里做个小例,供大家参考学习. 注:后续不强调python 版本,默认即为python3.x. 爬取目标这里简单找一个图片网站,获取图片 ...
[cf1140D. Minimum Triangulation][dp]
D. Minimum Triangulation time limit per test 2 seconds memory limit per test 256 megabytes input sta ...
maven-setting.xml文件详解
<?xml version="1.0" encoding="UTF-8"?> <settings xmlns="http://mav ...
006_硬件基础电路_MOS管
从文档中提取有用信息链接:https://pan.baidu.com/s/1fR7ZyGDgapOdd-FtjQ6m8Q提取码:an11 复制这段内容后打开百度网盘手机App,操作更方便哦判断三个 ...
JAVA的循环结构进阶
1.什么是二重循环: 一个循环体内又包含另一个完整的循环结构语法: ...
Linux 查看实时网卡流量的几种方式
在工作中,我们经常需要查看服务器的实时网卡流量.通常,我们会通过这几种方式查看Linux服务器的实时网卡流量. 1. sar -n DEV 1 2 sar命令包含在sysstat工具包中,提供系统的众 ...
Linux 内核参数说明
转载自: https://www.cnblogs.com/tolimit/p/5065761.html 因个人能力有限,不能保证所有描述都正确,还请大家集思广益,有错误的地方欢迎大家留言指正,同时也欢 ...
012_Python3 斐波纳契数列 + end 关键字
1.个斐波纳契数列. #!/usr/bin/python3 # Fibonacci series: 斐波纳契数列 # 两个元素的总和确定了下一个数 a, b = 0, 1 while b < ...
margin与padding的区别
当子元素使用padding-top,不会影响到父元素的高度使用margin-top,则会影响

topK问题

概述

方法

方法一

方法二

方法三

topK问题的更多相关文章

随机推荐

热门专题