scala写算法-用小根堆解决topK

topK问题是指从大量数据中获取最大(或最小)的k个数,比如从全校学生中寻找成绩最高的500名学生等等. 本问题可采用小根堆解决.思路是先把源数据中的前k个数放入堆中,然后构建堆,使其保持堆序(可以简单的看成k次insert操作).然后从源数据中的第k个数据之后的每个元素与堆的根节点(小根堆得root是最小的)比较,如果小于root,那么直接pass;如果大于,则执行headp.deleteMin,然后把该元素插入堆中并再次保持堆序.保持堆序需要涉及上滤与下滤的过程. 样例为: object M…

优先队列实现大小根堆解决top k 问题

摘于:http://my.oschina.net/leejun2005/blog/135085 目录:[ - ] 1.认识 PriorityQueue 2.应用:求 Top K 大/小的元素 3.PriorityQueue 在 hadoop 中的应用: 4.REF: 1.认识 PriorityQueue PriorityQueue是从JDK1.5开始提供的新的数据结构接口,它是一种基于优先级堆的极大优先级队列.优先级队列是不同于先进先出队列的另一种队列.每次从队列中取出的是具有最高优先权…

Java最小堆解决TopK问题

TopK问题是指从大量数据(源数据)中获取最大(或最小)的K个数据. TopK问题是个很常见的问题:例如学校要从全校学生中找到成绩最高的500名学生,再例如某搜索引擎要统计每天的100条搜索次数最多的关键词. 对于这个问题,解决方法有很多: 方法一:对源数据中所有数据进行排序,取出前K个数据,就是TopK. 但是当数据量很大时,只需要k个最大的数,整体排序很耗时,效率不高. 方法二:维护一个K长度的数组a[],先读取源数据中的前K个放入数组,对该数组进行升序排序,再依次读取源数据第K个以后的数据…

随手练——HDU Safe Or Unsafe （小根堆解决哈夫曼问题）

HDU 2527 :http://acm.hdu.edu.cn/showproblem.php?pid=2527 哈夫曼树,学完就忘得差不多了,题目的意思都没看懂,有时间复习下,看了别人的才知道是怎么回事. 贪心的题目,当总代价(要求最少)是由子代价累加或累乘出来,就可以考虑用哈夫曼来贪心. 题意: 就是给你一个字符串如:12 helloworld 统计出其中 d:1个,e:1个,h:1个,l:3个,o:2个,r:1个,w:1个,然后用一个数组保存起来a[7]={1,1,1,1,1,2,3};然…

优先队列PriorityQueue实现大小根堆解决top k 问题

转载:https://www.cnblogs.com/lifegoesonitself/p/3391741.html PriorityQueue是从JDK1.5开始提供的新的数据结构接口,它是一种基于优先级堆的极大优先级队列.优先级队列是不同于先进先出队列的另一种队列.每次从队列中取出的是具有最高优先权的元素.如果不提供Comparator的话,优先队列中元素默认按自然顺序排列,也就是数字默认是小的在队列头,字符串则按字典序排列(参阅 Comparable),也可以根据 Comparator 来…

自己写算法---java的堆的非递归遍历

import java.io.*; import java.util.*; public class Main { public static void main(String args[]) { Scanner cin = new Scanner(System.in); //ArrayList<String> list = new ArrayList<String>(); //Scanner scan = new Scanner(System.in); //获取键盘输入的另一种格…

scala写算法-List、Stream、以及剑指Offer里部分题目基于scala解法

Stream(immutable) Stream是惰性列表.实现细节涉及到lazy懒惰求值.传名参数等等技术(具体细节详见维基百科-求值策略). Stream和List是scala中严格求值和非严格求值两个代表性不可变函数式数据结构. 考虑字符串拼接的表达式"foo"+"bar"的到"foobar",空串""就是这个操作的单位元(identity,数学中又称幺元),也就是说s+""或者""…

scala写算法-快排

快排算法很经典,今天用scala的函数式思维来整理一下并实现: def qsort(list: List[Int]):List[Int]=list match { case Nil=>Nil case ::(pivot,t)=>qsort(t.filter(_<=pivot)) ++ List(pivot) ++ qsort(t.filter(_>pivot)) } println(qsort(List(1,32,4,5,2,3,5,6,7,33))) ** ok ** 以下是C语…

最大堆最小堆解决TOPK问题

堆:实质是一颗完全二叉树,最大堆的特点:父节点值均大于子节点:最小堆的父节点值均小于子节点: 一般使用连续内存存储堆内的值,因而可以根据当前节点的索引值推断子节点的索引值: 节点i的父节点为(i-1)/2: 节点j的左子结点:j * 2 + 1; 节点j的右子结点:j * 2 + 2; 以下代码实现了最大堆最小堆,当比较函数使用std::greater,得到最大堆,当比较函数使用std::less得到最小堆: 代码及测试用例如下: //最大最小堆 //MaxMinHeap.h #pragma o…

scala写算法-从后缀表达式构造

一个例子,比如ab+cde+**,这是一个后缀表达式,那么如何转换为一棵表达式树呢? 先上代码,再解释: object Main extends App{ import Tree.node def isOperator(char: Char):Boolean="+-*/".contains(char) val stack=new Stack[Tree] val str="ab+cde+**" str.foreach(ch=>{ isOperator(ch) m…

使用加强堆结构解决topK问题

作者:Grey 原文地址: 使用加强堆结构解决topK问题题目描述 LintCode 550 · Top K Frequent Words II 思路由于要统计每个字符串的次数,以及字典序,所以,我们需要把用户每次add的字符串封装成一个对象,这个对象中包括了这个字符串和这个字符串出现的次数.…

[151225] Python3 实现最大堆、堆排序，解决TopK问题

参考资料: 1.算法导论,第6章,堆排序堆排序学习笔记及堆排序算法的python实现 - 51CTO博客堆排序 Heap Sort - cnblogs 小根堆实现优先队列:Python实现 -cnblogs 大(小)根堆:是完全二叉树,也是大(小)根树. 大小根堆的差异,主要表现在比较函数的差异上. 大根堆的操作: 插入(nlog(n)): 概述:把新元素val作为新节点,沿着新节点到根节点的路径,执行一趟冒泡排序. 即:将新元素与父节点的元素进行比较交换,直到父节点不小于子节点为止. 删…

关于dijkstra的小根堆优化

YY引言在NOI2018D1T1中出现了一些很震惊的情况,D1T1可以用最短路解决,但是大部分人都在用熟知的SPFA求解最短路.而SPFA的最坏复杂度能够被卡到$O(VE)$.就是边的数量乘以点的数量,而用SPFA的各位都被恶意数据卡成了最坏情况.100->60.这显然很不划算.是时候祭出我们的堆优化$dijkstra$了. 核心思想朴素的dijkstra的核心是一个贪心的过程.每次找当前已知权值的最小的边来进行松弛.但是每次找的过程中都要用$O(m)$的时间.这样很慢.时间复杂度是$O((…

基于PriorityQueue(优先队列)解决TOP-K问题

TOP-K问题是面试高频题目,即在海量数据中找出最大(或最小的前k个数据),隐含条件就是内存不够容纳所有数据,所以把数据一次性读入内存,排序,再取前k条结果是不现实的. 下面我们用简单的Java8代码去解决TOP-K问题.为了使主要的逻辑更加清晰,去掉了一些如参数合法性检查等非关键代码. PriorityQueue(优先队列)是JDK1.5开始提供的,主要作者包括大名鼎鼎的纽约大学教授Doug Lea,他也是Java JUC包的鼻祖哦. PriorityQueue相当于一个堆(默认为小根堆,如果…

AcWing：145. 超市（贪心 + 小根堆 or 贪心 + 并查集）

超市里有N件商品,每个商品都有利润pipi和过期时间didi,每天只能卖一件商品,过期商品(即当天di<=0di<=0)不能再卖. 求合理安排每天卖的商品的情况下,可以得到的最大收益是多少. 输入格式输入包含多组测试用例. 每组测试用例,以输入整数N开始,接下里输入N对pipi和didi,分别代表第i件商品的利润和过期时间. 在输入中,数据之间可以自由穿插任意个空格或空行,输入至文件结尾时终止输入,保证数据正确. 输出格式对于每组产品,输出一个该组的最大收益值. 每个结果占一行. 数据范围…

分治思想--快速排序解决TopK问题

----前言最近一直研究算法,上个星期刷leetcode遇到从两个数组中找TopK问题,因此写下此篇,在一个数组中如何利用快速排序解决TopK问题. 先理清一个逻辑解决TopK问题→快速排序→递归→分治思想,因此本章内容会从此逻辑由后往前叙述何为分治思想? 从字面上就很容易能够推出"分而治之",维基百科的解释为"就是把一个复杂的问题分成两个或更多的相同或相似的子问题,直到最后子问题可以简单的直接求解,原问题的解即子问题的解的合并." 简述一下后半部分&quo…

一步一步写算法（之挑选最大的n个数）

原文:一步一步写算法(之挑选最大的n个数) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 从一堆数据中挑选n个最大的数,这个问题是网上流传的比较广的几个问题之一.具体来说,它的意思就是:假设我们有100个数据,我们需要挑选出最大的n个数据(n < 100),那么有没有办法实现这样一个目标呢?在这里,我想从排序的角度看看有没有什么办法可以实现这样一个目标. 在前面的博客当中,我们实现的排序算法有下面几种: (1) 冒泡排序.插入排序.希尔…

一步一步写算法（之n！中末尾零的个数统计）

原文:一步一步写算法(之n!中末尾零的个数统计) [ 声明:版权所有,欢迎转载,请勿用于商业用途. 联系信箱:feixiaoxing @163.com] 在很多面试的题目中,求n!结果中零的个数也是经常遇到的一道题目.那么这道题目的解决方法究竟是什么呢?我愿意在此和大家分享一下我自己的一些看法,有不同见解的朋友欢迎多提意见. 求n!中零的个数主要在于乘数中有没有能被2和5整除的数,只要能找到被2和5整数的乘数即可,所以,我的代码流程是这样的: (1)查找当前数据中有没有可以整除2的整数,同时修…

Java解决TopK问题（使用集合和直接实现）

在处理大量数据的时候,有时候往往需要找出Top前几的数据,这时候如果直接对数据进行排序,在处理海量数据的时候往往就是不可行的了,而且在排序最好的时间复杂度为nlogn,当n远大于需要获取到的数据的时候,时间复杂度就显得过高. 使用最小堆或者最大堆可以很好地解决Top大问题或者Top小问题. Top大问题解决思路:使用一个固定大小的最小堆,当堆满后,每次添加数据的时候与堆顶元素比较,若小于堆顶元素,则舍弃,若大于堆顶元素,则删除堆顶元素,添加新增元素,对堆进行重新排序. Top小问题解决思路:使用…

R语言实现︱局部敏感哈希算法（LSH）解决文本机械相似性的问题（二，textreuse介绍）

每每以为攀得众山小,可.每每又切实来到起点,大牛们,缓缓脚步来俺笔记葩分享一下吧,please~ --------------------------- 上一篇(R语言实现︱局部敏感哈希算法(LSH)解决文本机械相似性的问题(一,基本原理))讲解了LSH的基本原理,笔者在想这么牛气冲天的方法在R语言中能不能实现得了呢? 于是在网上搜索了一下,真的发现了一个叫textreuse的包可以实现这样的功能,而且该包较为完整,可以很好地满足要求. 现在的版本是 0.1.3,最近的更新的时间为 2016-0…

让priority_queue支持小根堆的几种方法

点击这里了解什么是priority_queue 前言 priority_queue默认是大根堆,也就是大的元素会放在前面例如 #include<iostream> #include<cstdio> #include<queue> using namespace std; priority_queue<int>q; ]={,,,,,}; ; int main() { ;i<=n;i++) q.push(a[i]); ) printf("%d…

大数据小视角5：探究SSD写放大的成因与解决思路

笔者目前开发运维的存储系统的服务器都跑在SSD之上,目前单机服务器最大的SSD容量有4T之多.(公司好有钱,以前在实验室都只有机械硬盘用的~~)但SSD本身的特性与机械硬盘差距较大,虽然说在性能上有诸多优势,但是如果使用的方式方法不对,反而会事倍功半.所以笔者花时间调研了一下固态硬盘的结构与特性,并且总结了一些避免SSD写放大性能下降的法则,希望对大家有所帮助~~ 1.SSD的写放大首先我们来看看什么是写放大,写放大(Write amplification)是2008年,由英特尔和Silico…

sbt打包Scala写的Spark程序，打包正常，提交运行时提示找不到对应的类

sbt打包Scala写的Spark程序,打包正常,提交运行时提示找不到对应的类详述使用sbt对写的Spark程序打包,过程中没有问题 spark-submit提交jar包运行提示找不到对应的类解决编译环境没有变化,将代码拷贝到其他项目下打包可以运行,无解偶然发现IDEA打开的sbt文件显示很多错误,查看详情发现存在错误:java-lang-ClassNotFoundException-org-jetbrain,遂谷歌之,找到了这个网页 ,说是IDEA的bug,打开use sbt she…

CJOJ 2482 【POI2000】促销活动（STL优先队列，大根堆，小根堆）

CJOJ 2482 [POI2000]促销活动(STL优先队列,大根堆,小根堆) Description 促销活动遵守以下规则: 一个消费者 -- 想参加促销活动的消费者,在账单下记下他自己所付的费用,他个人的详细情况,然后将账单放入一个特殊的投票箱. 当每天促销活动结束时,从投票箱中抽出两张账单: 第一张被抽出的账单是金额最大的账单然后被抽出的是金额最小的账单,对于付了金额最大账单的这位消费者,将得到一定数目的奖金,其奖金数等于他账单上的金额与选出的最小金额的差. 为了避免一个消费者多次获奖…

AcWing：146. 序列（小根堆 + 数学归纳 + 贪心）

给定m个序列,每个包含n个非负整数. 现在我们可以从每个序列中选择一个数字以形成具有m个整数的序列. 很明显,我们一共可以得到nmnm个这种序列, 然后我们可以计算每个序列中的数字之和,并得到nmnm个值. 现在请你求出这些序列和之中最小的n个值. 输入格式第一行输入一个整数T,代表输入中包含测试用例的数量. 接下来输入T组测试用例. 对于每组测试用例,第一行输入两个整数m和n. 接下在m行输入m个整数序列,数列中的整数均不超过10000. 输出格式对于每组测试用例,均以递增顺序输出最小的n…

AcWing：111. 畜栏预定（贪心 + 小根堆）

有N头牛在畜栏中吃草. 每个畜栏在同一时间段只能提供给一头牛吃草,所以可能会需要多个畜栏. 给定N头牛和每头牛开始吃草的时间A以及结束吃草的时间B,每头牛在[A,B]这一时间段内都会一直吃草. 当两头牛的吃草区间存在交集时(包括端点),这两头牛不能被安排在同一个畜栏吃草. 求需要的最小畜栏数目和每头牛对应的畜栏方案. 输入格式第1行:输入一个整数N. 第2..N+1行:第i+1行输入第i头牛的开始吃草时间A以及结束吃草时间B,数之间用空格隔开. 输出格式第1行:输入一个整数,代表所需最小畜栏…

小根堆(Heap)的详细实现

堆的介绍 Heap是一种数据结构具有以下的特点: 1)完全二叉树 2)heap中存储的值是偏序 Min-heap: 父节点的值小于或等于子节点的值 Max-heap: 父节点的值大于或等于子节点的值堆的存储一般都用数组来表示堆,i结点的父结点下标就为(i–1)/2.它的左右子结点下标分别为2 * i + 1和2 * i + 2.如第0个结点左右子结点下标分别为1和2. 由于堆存储在下标从0开始计数的数组中,因此,在堆中给定下标为i的结点时: (1)如果i=0,结点i是根结点,无父结点:否则结…

如何解决TOP-K问题

前言:最近在开发一个功能:动态展示的订单数量排名前10的城市,这是一个典型的Top-k问题,其中k=10,也就是说找到一个集合中的前10名.实际生活中Top-K的问题非常广泛,比如:微博热搜的前100名.抖音直播的小时榜前50名.百度热搜的前10条.博客园点赞最多的blog前10名,等等如何解决这类问题呢?初步的想法是将这个数据集合排序,然后直接取前K个返回.这样解法可以,但是会存在一个问题:排序了很多不需要去排序的数据,时间复杂度过高.假设有数据100万,对这个集合进行排序需要很长的时间,即便…

treap（小根堆）模板

总结教训对于treap使用小根堆性质,一定要特判左右子树是否存在,因为空节点的优先级为0,是最高的,不特判会出错我就这么错了,so 一定要特判!一定要特判!一定要特判!重要的事情说三遍本文代码根据P3369 [模板]普通平衡树 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn)写的模板,有注释: //treap(小根堆性质) #include<bits/stdc++.h> #define rint register int typedef long long ll; usi…

arcgis api for js共享干货系列之一自写算法实现地图量算工具

众所周知,使用arcgis api for js实现地图的量算工具功能,无非是调用arcgisserver的Geometry服务(http://localhost:6080/arcgis/rest/services/Utilities/Geometry/GeometryServer)提供的Areas and Lengths以及Lengths,如图: 但是我这里提供另一种实现的思路,就是自己写算法来实现距离以及面积的量算,这样的好处是不依赖arcgisserver几何服务,有些项目不排除有些奇特的…

【scala写算法-用小根堆解决topK】的更多相关文章