分治思想--快速排序解决TopK问题
----前言
最近一直研究算法,上个星期刷leetcode遇到从两个数组中找TopK问题,因此写下此篇,在一个数组中如何利用快速排序解决TopK问题。
先理清一个逻辑解决TopK问题→快速排序→递归→分治思想,因此本章内容会从此逻辑由后往前叙述
何为分治思想?
从字面上就很容易能够推出"分而治之",维基百科的解释为"就是把一个复杂的问题分成两个或更多的相同或相似的子问题,直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并。" 简述一下后半部分"遇到子问题可以简单的直接求解",打个比方,当最后分解到最后子问题不可再分时,例如只有一个元素或者该元素小于某个值。返回该值,这时子问题就成功解决。通过一个函数,将子问题合并,最后解决了原问题。这里用归并排序来让大家可以更容易的理解。
在讲解归并排序之前,通过简单的介绍一下递归,这是分治思想的基础。
用递归需要满足三个条件
- 一个问题的解可以分为多个子问题的解
- 这个问题分解之后的子问题,除数据规模不同,其余完全相同
- 有边界条件以此限制
若是不容易理解,打个比方,当你与朋友去电影院观影时,你现在想知道自己的位置是第几排,恰好现场黑灯瞎火,什么都看不见,这时你询问你前一排座位号是什么,若恰好他也不知道,这时,他同你一样做出相同的行为也问前面的人,最终问到第一排,第一排就是边界条件,第一排告诉第二排,以此类推,最后你就清楚当前你所在的排数。以下是一张归并排序的图片与视频
归并排序首先是分解成子问题,如下所示,分解到只剩下一个元素,然后从这个元素开始,通过归并排序,由下而上返回结果,最终解决原问题,因此关键是分解问题函数与归并函数
以下是我用Python写的源代码,可供参考
def merge_sort(array):
if (len(array) <= 1):
return array
mid = int(len(array) / 2)
left = merge_sort(array[:mid])
right = merge_sort(array[mid:])
return merge(left, right)def merge(left, right):
result = []
i = j = 0
while i < len(left) and j < len(right):
if left[i] <= right[j]:
result.append(left[i])
i += 1
else:
result.append(right[j])
j += 1
#此处有i,j两个索引,当其中一边推入完成,另一边可直接将剩下的推入
result += left[i:]
result += right[j:]
return resultarray = [5, 3, 2, 8, 6, 1, 4, 7]
print(merge_sort(array))
此处解决递归与分治思想的问题
快速排序
快速排序同样是运用分治思想,以一个中枢轴元素,左边放置小于中枢轴元素,右边大于中枢轴元素,中枢元素一般选为最后一个元素(更方便理解),通过分治思想--下面的qucik_sort_c函数为划分为成子问题,partition为分区函数,最后得出原问题的答案。
快速排序的难点在于partition分区函数,但本质也是很简单,同样是有两个索引,一个索引用于遍历当前分区数组所有元素(下面即为j),一个索引为指向小于中枢轴元素,若是小于中枢轴元素,增加该索引的值,如下i即为该索引,下面的视频的中枢轴元素为第一个元素
def quick_sort(A):
qucik_sort_c(A, 0, len(A) - 1)def qucik_sort_c(A, p, r):
if p >= r: return
q = partition(A, p, r) # 获得分区点
qucik_sort_c(A, p, q - 1)
qucik_sort_c(A, q + 1, r)def partition(A, p, r):
pivot = A[r]
i = p
for j in range(p, r):
if A[j] < pivot:
A[i], A[j] = A[j], A[i]
i = i + 1
A[i], A[r] = A[r], A[i]
return i
A = [8,10,2,3,6,1,5]
quick_sort(A)
print(A)
当然,快速排序也可以像归并排序,创建一个新的数组,最后两个数组归并,返回成一个新的数组,但这样增加了空间复杂度,且快速排序由于中枢轴的选取不同,最坏时间复杂度为n2,因此最好还是原地排序。
快速排序解决TopK问题
TopK问题是一个数组中第K大的数字,比如[1,7,3,5,4]中第2大的数字为3,如果说成第K小的数字也可以,只要能够理解即可。TopK问题在大数据中是一个常用的算法,比如说从100万的数据中找出前100个热点频率最高的词。解决TopK问题有很多种方法,大家若是有兴趣可以自己搜索,因为作者本人对算法也只是处在初步的阶段。这里仅仅是通过快速排序的方法解决TopK问题。
选择当前数组元素的最后一个为中枢轴,由上面的快速排序可以知道,每一次的排序都可以知道中枢轴的下标是多少,这样可以确定当前中枢轴为第几大的数字,这里通过快速排序的思想,TopK小于当前的中枢轴下标,那么向左走,反之,若是中枢轴下标等于TopK的值,直接返回即可。原理其实并不难,下面有一处地方需注意,当TopK的值大于中枢轴下标时,需要向右走,每一次需要减去之前的中枢轴下标,可以通过下面自己所画的图理解。
def smallest_k(arr, l, r, k):
if (k > 0 and k <= r - l + 1):
index = partiton(arr, l, r)
if (index - l == k - 1):
return arr[index]
elif (index - l > k - 1):
return smallest_k(arr, l, index - 1, k)
else:
return smallest_k(arr, index + 1, r, k - 1 - index + l )def partiton(arr, l, r):
pivot = arr[r]
i = l
for j in range(l, r):
if arr[j] < pivot:
arr[i], arr[j] = arr[j], arr[i]
i = i + 1
arr[i], arr[r] = arr[r], arr[i]
return iarray = [13,4,12,17,2,44,55,92,1,18,6]
print(smallest_k(array, 0, len(array) - 1, 8),array)
后记
自己本身是打算去搜索找到答案,但并没有自己认同的答案,因此只能不断的尝试。此文章借鉴了许多大佬的推文,之后会推如何在两个数组中找到TopK问题,这是自己刷leetcode 中的寻找两个有序数组的中位数有感,因为得考虑时间复杂度,自己也通过各种途径才知道如何解决的。
若是觉的不错,博客园因为发送不了视频,因此无法动画演示,若感兴趣的同学可以去此文章看看
参考链接:
极客时间-数据结构与算法之美:https://time.geekbang.org/column/intro/126
算法动画:https://visualgo.net/en
GeeksForGeek:https://www.geeksforgeeks.org/quick-sort/
分治思想--快速排序解决TopK问题的更多相关文章
- 分治思想的应用:C++实现快速排序和随机化的快速排序
分治思想的应用:C++实现快速排序和随机化的快速排序 原创 2014年09月08日 14:04:49 标签: 快速排序 / 随机化快速排序 / 排序算法 / 数据结构 947 1. 快速排序时冒泡排序 ...
- 分治思想 特别常用 Codeforces Beta Round #80 (Div. 1 Only) D
D. Time to Raid Cowavans time limit per test 4 seconds memory limit per test 70 megabytes input stan ...
- Big Data(一)分治思想
按照课程安排,接下来半年,我将会去上一个为期半年的大数据课程.第一课是马士兵老师机构的周老师所讲,这里单纯记录讲课的内容. 问题1: 我有一万个元素(比如数字或单词)需要存储? 如果查找某一个元素,最 ...
- (转)基于快速排序的TOPK算法
基于快速排序的TOPK算法 转自:http://blog.csdn.net/fanzitao/article/details/7617223 思想: 类似于快速排序,首先选择一个划分元,如果这个划分元 ...
- 如何解决TOP-K问题
前言:最近在开发一个功能:动态展示的订单数量排名前10的城市,这是一个典型的Top-k问题,其中k=10,也就是说找到一个集合中的前10名.实际生活中Top-K的问题非常广泛,比如:微博热搜的前100 ...
- Java解决TopK问题(使用集合和直接实现)
在处理大量数据的时候,有时候往往需要找出Top前几的数据,这时候如果直接对数据进行排序,在处理海量数据的时候往往就是不可行的了,而且在排序最好的时间复杂度为nlogn,当n远大于需要获取到的数据的时候 ...
- 基于PriorityQueue(优先队列)解决TOP-K问题
TOP-K问题是面试高频题目,即在海量数据中找出最大(或最小的前k个数据),隐含条件就是内存不够容纳所有数据,所以把数据一次性读入内存,排序,再取前k条结果是不现实的. 下面我们用简单的Java8代码 ...
- 使用加强堆结构解决topK问题
作者:Grey 原文地址: 使用加强堆结构解决topK问题 题目描述 LintCode 550 · Top K Frequent Words II 思路 由于要统计每个字符串的次数,以及字典序,所以, ...
- 无序数组中用 快速排序的分治思想 寻找第k大元素
#include <stdio.h> int *ga; int galen; void print_a(){ ; i < galen; i++){ printf("%d & ...
随机推荐
- python3(三十二) try except
""" 异常处理 """ __author__on__ = 'shaozhiqi 2019/9/19' # 大量的代码来判断是否出错: # ...
- mysql 使用技巧 分页limit
mysql 分页使用 limit关键字,limit x,y (x代表从哪条数据开始,y代表页面大小.mysql第一条数据在limit计算时索引为0) 前10条 limit , 从第1条开始的10条 l ...
- day02,静态库和动态库
一.首先我们来看一下什么是静态库和动态库,在这之前我们来看一下编译成可执行文件的过程: 1.静态库(.a..lib):就是在使用的时候会把代码复制到文件中: 它的优点:独立,在链接后不需要静态库源文件 ...
- 给我Python几十行代码,我还你一个微信聊天助手
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 故事胶片 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
- Docker安装Redis并介绍漂亮的可视化客户端进行操作
1 简介 Redis是使用ANSI C语言开发的基于Key-Value的高性能NoSQL数据库,在解决高并发.高可用等一系列问题中,它扮演着重要的角色.它的优势主要有: 速度快. 持久化. 原子性. ...
- O - Employment Planning HDU - 1158
题目大意: 第一行一个n,表示共n个月份,然后第二行分别表示一个工人的聘请工资,月薪水,解雇工资.第三行是n个月每个月需要的工人的最少数目.然后求最少花费 题解: dp[i][j] 表示第i个月聘请j ...
- 全网最全最细的jmeter接口测试教程以及接口测试流程详解
一.Jmeter简介 Jmeter是由Apache公司开发的一个纯Java的开源项目,即可以用于做接口测试也可以用于做性能测试. Jmeter具备高移植性,可以实现跨平台运行. Jmeter可以实 ...
- C/C++,被誉为“最经典的编程语言”,不仅是因为编程入门需要学?
计算机诞生初期,用机器语言或汇编语言编写程序; 第一种高级语言FORTRAN诞生于1954年; BASIC语言(1964)是由FORTRAN语言的简化而成的是为初学者设计的小型高级语言; C语言是19 ...
- PHP Callable强制指定回调类型的方法
如果一个方法需要接受一个回调方法作为参数,我们可以这样写 <?php function dosth($callback){ call_user_func($callback); } functi ...
- Android Studio常用配置
目录 1. 主题颜色设置 2. Logcat颜色设置 3. 类注释 4. 编译器添加背景图 4.1 第一种方式 Background Image 4.2 第二种方式 Sexy Editor 5. 修改 ...