TopK问题及优化

腾讯面试题:有100W个战斗力,取前100名的算法. 经典topK问题,结论是:随机选择算法 + 快排思想,通过随机选择算法,找到第k大的数,再进行一次快排中的partition,就能得到TopK的结果. 有篇大神的帖子,写的非常好,借鉴下 http://www.sohu.com/a/255145095_178889 结合大神的,觉得还有优化空间,就是找到第K大的数的过程中,把满足条件的数组拷贝出来,这样就没必要再快排了.…

快速筛出topK的快速选择算法和BFPRT优化

本文始发于个人公众号:TechFlow,原创不易,求个关注在之前Python系列当中,我们介绍了heapq这个库的用法,它可以在\(O(nlogn)\)的时间里筛选出前K大或者前K小的元素.今天我们一起来看一个可以更快实现选择的快速选择算法. 思维推导在公布答案之前,我想先带着大家试着推导一下解法.这其实才是算法能力的精髓,即是应用已知能力解决未知问题的能力.我们学的各种各样的算法都可以看成是已知能力,已知能力越多,说明能力的边界越广,也就意味着理论上可以解决的问题也就越多.相比已知能力,解…

MapReduce实现TopK的示例

由于开始学习MapReduce编程已经有一段时间了,作为一个从编程中寻找自信和乐趣以及热爱编程的孩子来讲,手开始变得很“痒”了,很想小试一下身手.于是自己编写了TopK的代码.TopK的意思就是从原文件中找出词频排名前K的所有单词.首先分析该问题,从中我们可以得到启发:要想知道词频排名前K的所有单词,那么是不是要对所有的单词进行词频的统计啊?于是我们就联想到了一个比较经典的例子:WordCount的例子.是的,没错.就是它,统计原文件中每个单词的个数就靠它. 但是,我们词频统计出来了,接下来需要…

[151225] Python3 实现最大堆、堆排序，解决TopK问题

参考资料: 1.算法导论,第6章,堆排序堆排序学习笔记及堆排序算法的python实现 - 51CTO博客堆排序 Heap Sort - cnblogs 小根堆实现优先队列:Python实现 -cnblogs 大(小)根堆:是完全二叉树,也是大(小)根树. 大小根堆的差异,主要表现在比较函数的差异上. 大根堆的操作: 插入(nlog(n)): 概述:把新元素val作为新节点,沿着新节点到根节点的路径,执行一趟冒泡排序. 即:将新元素与父节点的元素进行比较交换,直到父节点不小于子节点为止. 删…

qsort代码(pascal/c/c++)与思想及扩展(随机化，TopK)

1.快速排序思想:从一堆数A中找到一个数x,然后把这堆数x分成两堆B,C,B堆的数小于(或小于等于)该数,放在左边,C堆的数大于(或大于等于)该数,放在右边,有可能把该数x单独分开,放在中间.然后对小于(或小于等于)该数的堆B和大于(或大于等于)该数的堆C进行上述相同的操作,直到堆中的数只有一个,不必排序. 2.快速排序随机化:对数x进行随机化选取.即若对a[l]~a[r]进行排序,则从l~r中选择一个数k,使x=a[k]. 3.求Topk(一个数组从小到大排序第k个数),O(n). 若数x在堆…

020 Spark中分组后的TopN，以及Spark的优化（重点）

一:准备 1.源数据 2.上传数据二:TopN程序编码 1.程序 package com.ibeifeng.bigdata.spark.core import java.util.concurrent.ThreadLocalRandom import org.apache.spark.{SparkConf, SparkContext} /** * 分组TopN:按照第一个字段分组:同一组中,按照第二个字段进行排序:每一组中,获取出现最多的前K个数据. * Created by ibf on 0…

海量数据找相同数,高配词,不重复的数,判断一个数是否存在,查询串,不同电话号码的个数,中位数,按照query频度排序,topk

这类题目,首先需要确定可用内存的大小,然后确定数据的大小,由这两个参数就可以确定hash函数应该怎么设置才能保证每个文件的大小都不超过内存的大小,从而可以保证每个小的文件都能被一次性加载到内存中. 1. 如何从大量的url中找到相同的url? 题目描述:给定a.b两个文件,各存放50亿个url,每个url各占64B,内存限制是4GB,请找出a.b两个文件共同的url. 分析:50亿个url,50亿*64 = 5GB*64=320GB,内存大小4GB,因此不可能一次性把所有的url都加载到内存中处…

海量数据中找出前k大数（topk问题）

海量数据中找出前k大数(topk问题) 前两天面试3面学长问我的这个问题(想说TEG的3个面试学长都是好和蔼,希望能完成最后一面,各方面原因造成我无比想去鹅场的心已经按捺不住了),这个问题还是建立最小堆比较好一些. 先拿10000个数建堆,然后一次添加剩余元素,如果大于堆顶的数(10000中最小的),将这个数替换堆顶,并调整结构使之仍然是一个最小堆,这样,遍历完后,堆中的10000个数就是所需的最大的10000个.建堆时间复杂度是O(mlogm),算法的时间复杂度为O(nmlogm)(n为10亿…

优先队列与TopK

一.简介前文介绍了<最大堆>的实现,本章节在最大堆的基础上实现一个简单的优先队列.优先队列的实现本身没什么难度,所以本文我们从优先队列的场景出发介绍topK问题. 后面会持续更新数据结构相关的博文. 数据结构专栏:https://www.cnblogs.com/hello-shf/category/1519192.html git传送门:https://github.com/hello-shf/data-structure.git 二.优先队列普通的队列是一种先进先出的数据结构,元素在队列…

【Leetcode Top-K问题 BFPRT】第三大的数（414）

题目给定一个非空数组,返回此数组中第三大的数.如果不存在,则返回数组中最大的数.要求算法时间复杂度必须是O(n). 示例 1: 输入: [3, 2, 1] 输出: 1 解释: 第三大的数是 1. 示例 2: 输入: [1, 2] 输出: 2 解释: 第三大的数不存在, 所以返回最大的数 2 . 示例 3: 输入: [2, 2, 3, 1] 输出: 1 解释: 注意,要求返回第三大的数,是指第三大且唯一出现的数.存在两个值为2的数,它们都排第二. 解答思路: 1,题目要求时间复杂度必须是O(n…

【Leetcode 堆、快速选择、Top-K问题 BFPRT】数组中的第K个最大元素（215）

这道题很强大,引出了很多知识点题目在未排序的数组中找到第 k 个最大的元素.请注意,你需要找的是数组排序后的第 k 个最大的元素,而不是第 k 个不同的元素. 示例 1: 输入: [3,2,1,5,6,4] 和 k = 2 输出: 5 示例 2: 输入: [3,2,3,1,2,4,5,5,6] 和 k = 4 输出: 4 说明: 你可以假设 k 总是有效的,且 1 ≤ k ≤ 数组的长度. 解答题目要求找出一个序列中第K大元素,可以很容易想到下面的解法: 1,给序列排序,取出倒数第K个.快…

Python 和 C/C++ 拓展程序如何性能优化？看这一篇文就够

作者:王璐璐 | 旷视 MegEngine 架构师一. 背景在 MegEngine imperative runtime 的早期开发中,我们面临着一些的性能优化问题.除了一些已知需要重构的地方(早期设计时为了开发效率而牺牲性能的妥协),还存在一些未知的性能问题需要用 profiler 进行观测和分析才能发现.MegEngine 的 imperative runtime 是一个由 Python 和 C/C++ 编写的模块,对于这类程序,各种 profiler 多到令人眼花缭乱.在调研各种 pr…

leetcode347 —— n中topK && PriorityQueue(Heap) && Map遍历

题目要求:求前K个最频繁出现的数字. 1.很容易想到,使用HashMap<Integer,Integer>来存储<number,frequency>键值对 1 int n = nums.length; 2 Map<Integer, Integer> map = new HashMap<>(n); 3 4 for (int num : nums) { 5 map.put(num, map.getOrDefault(num, 0) + 1); 6 } 2.接下来…

一文详解面试常考的TopK问题

首发公众号:bigsai ,转载请附上本文链接前言 hello,大家好,我是bigsai哥哥,好久不见,甚是想念哇! 今天给大家分享一个TOPK问题,不过我这里不考虑特别大分布式的解决方案,普通的一道算法题. 首先搞清楚,什么是topK问题? topK问题,就是找出序列中前k大(或小)的数,topK问题和第K大(或小)的解题思路其实大致一致的. TopK问题是一个非常经典的问题,在笔试和面试中出现的频率都非常非常高(从不说假话).下面,从小小白的出发点,认为topK是求前K大的问题,一起认识下…

实践torch.fx第一篇——基于Pytorch的模型优化量化神器

第一篇--什么是torch.fx 今天聊一下比较重要的torch.fx,也趁着这次机会把之前的torch.fx笔记整理下,笔记大概拆成三份,分别对应三篇: 什么是torch.fx 基于torch.fx做量化基于torch.fx量化部署到TensorRT 本文对应第一篇,主要介绍torch.fx和基本使用方法.废话不多说,直接开始吧! 什么是Torch.FX torch.fx是Pytorch 1.8出来的一套工具或者说一个库,是做python-to-python code transformat…

go-zero微服务实战系列（七、请求量这么高该如何优化）

前两篇文章我们介绍了缓存使用的各种最佳实践,首先介绍了缓存使用的基本姿势,分别是如何利用go-zero自动生成的缓存和逻辑代码中缓存代码如何写,接着讲解了在面对缓存的穿透.击穿.雪崩等常见问题时的解决方案,最后还重点讲解了如何保证缓存的一致性.因为缓存对于高并发服务来说实在是太重要了,所以这篇文章我们还会继续一起学习下缓存相关的知识. 本地缓存当我们遇到极端热点数据查询的时候,这个时候就要考虑本地缓存了.热点本地缓存主要部署在应用服务器的代码中,用于阻挡热点查询对于Redis等分布式缓存或者数…

关于DOM的操作以及性能优化问题-重绘重排

写在前面: 大家都知道DOM的操作很昂贵. 然后贵在什么地方呢? 一.访问DOM元素二.修改DOM引起的重绘重排一.访问DOM 像书上的比喻:把DOM和JavaScript(这里指ECMScript)各自想象为一个岛屿,它们之间用收费桥梁连接,ECMAScript每次访问DOM,都要途径这座桥,并交纳"过桥费",访问DOM的次数越多,费用也就越高.因此,推荐的做法是尽量减少过桥的次数,努力待在ECMAScript岛上.我们不可能不用DOM的接口,那么,怎样才能提高程序的效率? 既…

In-Memory：内存优化表的事务处理

内存优化表(Memory-Optimized Table,简称MOT)使用乐观策略(optimistic approach)实现事务的并发控制,在读取MOT时,使用多行版本化(Multi-Row versioning)创建数据快照,读操作不会对数据加锁,因此,读写操作不会相互阻塞.写操作会申请行级锁,如果两个事务尝试更新同一数据行,SQL Server检测到写-写冲突,产生错误(Error 41302),将后后创建的事务作为失败者,回滚事务的操作.虽然MOT事务使用无锁结构(Lock-Free)…

试试SQLSERVER2014的内存优化表

试试SQLSERVER2014的内存优化表 SQL Server 2014中的内存引擎(代号为Hekaton)将OLTP提升到了新的高度. 现在,存储引擎已整合进当前的数据库管理系统,而使用先进内存技术来支持大规模OLTP工作负载. 就算如此,要利用此新功能,数据库必须包含“内存优化”文件组和表即所配置的文件组和表使用Hekaton技术. 幸运的是,SQL Server 2014使这一过程变得非常简单直接. 要说明其工作原理,我们来创建一个名为TestHekaton的数据库,然后添加一个内存优…

01.SQLServer性能优化之----强大的文件组----分盘存储

汇总篇:http://www.cnblogs.com/dunitian/p/4822808.html#tsql 文章内容皆自己的理解,如有不足之处欢迎指正~谢谢前天有学弟问逆天:“逆天,有没有一种方式可以让我一个表存到两个数据库文件中,或者说怎么把一个表的数据平摊到其他数据库文件中?” (⊙o⊙)…,逆天数据库优化不是很强悍,不过类似的情景倒是见过,可以给你一个思路.比如说我们在创建数据库的时候就可以好好利用文件组. 举个例子: 我们一般创建数据库都是这么来的: create database…

03.SQLServer性能优化之---存储优化系列

汇总篇:http://www.cnblogs.com/dunitian/p/4822808.html#tsql 概述:http://www.cnblogs.com/dunitian/p/6041323.html#com 以下内容皆为个人摸索,没有人专门指导(公司不给力啊!DBA和大牛都木有...),所以难免出错,如有错误欢迎指正,小子勇于接受批评~(*^__^*) ~ 水平分库分表和垂直分库分表,大家都经常谈,我说下我的理解,看图: 垂直分表就不用说了,基本上会SQLServer的都会. 垂…

前端网络、JavaScript优化以及开发小技巧

一.网络优化 YSlow有23条规则,中文可以参考这里.这几十条规则最主要是在做消除或减少不必要的网络延迟,将需要传输的数据压缩至最少. 1)合并压缩CSS.JavaScript.图片,静态资源CDN缓存通过构建工具Gulp,可以在开发的时候就将合并压缩的事情一起做掉. 之所以要做合并压缩是因为:HTTP 1.x不允许一个连接上的多个响应数据交错到达(多路复用),因而一个响应必须完全返回后,下一个响应才会开始传输. 也就是说即使客户端同时发送了两个请求,而且CSS资源先准备就绪,服务器也会先发…

数据库优化案例——————某市中心医院HIS系统

记得在自己学习数据库知识的时候特别喜欢看案例,因为优化的手段是容易掌握的,但是整体的优化思想是很难学会的.这也是为什么自己特别喜欢看案例,今天也开始分享自己做的优化案例. 最近一直很忙,博客产出也少的可怜,今天整理了一下自己做过优化或各种方案的客户已经超过100家了,今天分享的案例算是在这些客户中比较典型的了!没有什么高大上都是常见的问题!在之前的博客中都有过提及,那么本篇我们就结合之前的技术点来看看这个案例.学习优化手段的看官们可以参见我的优化系列: SQL SERVER全面优化-------…