bitmap对海量无重复的整数排序--转
原文地址:http://blog.csdn.net/u013074465/article/details/46956295
现在有n个无重复的正整数(n 小于10的7次方),如果内存限制在1.5M以内,要求对着n个数进行排序。【编程珠玑第一章题目】
很显然,10的7次方个整数占用的空间为10 ^ 7 * 4字节,大约等于40M,而内存限制为1.5M,因此,无法将所有数字加载到内存,所以快速排序、堆排序等高效的排序算法就没法使用。这里可以使用bitmap方式,用1bit表示一个整数,那么,10^7个整数需要10^7位,也就是大约1.25M空间。
如下是bitmap对无重复整数的排序过程。
一、一次bitmap就可以将所有数据排完
如果每个整数占一位,可以将所有的整数在内存中表示(如上述提到的那样),那么可以直接一次bitmap排序就完成了,时间复杂度为O(n),空间复杂度为O(n位)。下面分别给出C和C++的bitset方式:
1、C语言方式
- //位图排序
- #include <iostream>
- #include <bitset>
- #define WIDTHWORD 32 //一个整数的宽度是32bit
- #define SHIFT 5
- #define MASK 0x1F //0x1f == 31
- #define N 100 //对十万个无重复的整数排序
- using namespace std;
- //申请一个N位的bitmap
- int bitmap[1 + N / WIDTHWORD];
- //将bitmap的第value设置为1
- void set(int value) {
- bitmap[value >> SHIFT] |= (1 << (value & MASK));
- }
- //清除bitmap第value位上的1:设置为0
- void clear(int value) {
- bitmap[value >> SHIFT] &= ~(1 << (value & MASK));
- }
- //测试bitmap第value位是否为1
- int test(int value) {
- return bitmap[value >> SHIFT] & (1 << (value & MASK));
- }
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //将bitmap所有位设置为0
- for (int i = 0; i < N; ++i) {
- clear(i);
- }
- //bitmap中将待排序数组中值所在的位设置为1
- for (int i = 0; i < length; i++)
- set(a[i]);
- //输出排序后的结果
- for (int i = 0; i < N; ++i) {
- if (test(i))
- cout << i << " ";
- }
- }
如上代码中:
2、使用C++的bitset
- #include <iostream>
- #include <bitset>
- #define N 100
- using namespace std;
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //直接使用C++bitset,申请Nbit的空间,每一位均设置为0
- bitset<N> bitmap;
- //遍历待排序数组,将bitmap中对应位设置为1
- for (int i = 0; i < length; i++)
- bitmap.set(a[i], 1);
- //输入排序结果
- for (int i = 0; i < N; ++i) {
- if (bitmap[i])
- cout << i << " ";
- }
- }
二、需要多次bitmap排序
- int main() {
- int a[] = {12, 5, 1, 89, 64, 49, 77, 91, 3, 0, 32, 50, 99};
- int length = sizeof(a) / sizeof(int);
- //假设还是有小于100的不重复整数需要排序,但是
- //不能申请100位空间,只能申请30位空间,那么,需要
- //排序的次数如下:
- int sort_times = N / 30 + 1;
- //那么,第一趟先排序0-29,第二趟排序30-59,
- //第三趟排序60-89,第四趟排序剩下的
- bitset<30> bitmap; //只能申请30位的bitmap
- for (int times = 0; times < sort_times; ++times) { //一共进行四趟排序
- bitmap.reset(); //记得每次排序前将bitmap清空为0
- for (int i = 0; i < length; i++) {
- if (a[i] >= 30 * times && a[i] < 30 * (times + 1))
- bitmap.set(a[i] - 30 * times);
- }
- for (int i = 0; i < 30; ++i) {
- if (bitmap[i])
- cout << i + 30 * times << " ";
- }
- }
- }
三、如果每个整数最多出现m次,如何排序?
四、除了排序,bitmap的其他用途
Java中也有对应的实现,java.util.BitSet,
完全是为这个量身定做的java类。
这个类从jdk1.0开始就有了,不过其中的某些方法是jdk1.4以后才有的,
大家用的时候要当心。
另外BitSet是非线程安全的,需要外部同步。
bitmap对海量无重复的整数排序--转的更多相关文章
- 疯狂位图之——位图实现12GB无重复大整数集排序
<Programming Pearls>(编程珠玑)第一章讲述了如何用位图排序无重复的数据集,整个思想很简洁,今天实践了下. 一.主要思想 位图排序的思想就是在内存中申请一块连续的空间作为 ...
- 大数据位图法(无重复排序,重复排序,去重复排序,数据压缩)之Java实现
1,位图法介绍 位图的基本概念是用一个位(bit)来标记某个数据的存放状态,由于采用了位为单位来存放数据,所以节省了大量的空间.举个具体的例子,在Java中一般一个int数字要占用32位,如果能用一位 ...
- 疯狂位图之——位图生成12GB无重复随机乱序大整数集
上一篇讲述了用位图实现无重复数据的排序,排序算法一下就写好了,想弄个大点数据测试一下,因为小数据在内存中快排已经很快. 一.生成的数据集要求 1.数据为0--2147483647(2^31-1)范围内 ...
- 编写函数求整形数组a中存储的m个不重复的整数的第k大的整数(其中m>=1,1<=k<=m)很简单的一个思路是酱紫的:管他辣么多干啥,上来一把排序然后直接得答案
/** * @author:(LiberHome) * @date:Created in 2019/2/28 20:38 * @description: * @version:$ *//*编写函数求整 ...
- Newtonsoft.Json C# Json序列化和反序列化工具的使用、类型方法大全 C# 算法题系列(二) 各位相加、整数反转、回文数、罗马数字转整数 C# 算法题系列(一) 两数之和、无重复字符的最长子串 DateTime Tips c#发送邮件,可发送多个附件 MVC图片上传详解
Newtonsoft.Json C# Json序列化和反序列化工具的使用.类型方法大全 Newtonsoft.Json Newtonsoft.Json 是.Net平台操作Json的工具,他的介绍就 ...
- 【Java】Java复习笔记-三大排序算法,堆栈队列,生成无重复的随机数列
冒泡排序 package com.lcw.bubble; public class BubbleSort { /** * 冒泡排序 * @param args * @author 成鹏致远 */ pu ...
- 算法练习之合并两个有序链表, 删除排序数组中的重复项,移除元素,实现strStr(),搜索插入位置,无重复字符的最长子串
最近在学习java,但是对于数据操作那部分还是不熟悉 因此决定找几个简单的算法写,用php和java分别实现 1.合并两个有序链表 将两个有序链表合并为一个新的有序链表并返回.新链表是通过拼接给定的两 ...
- LintCode 整数排序
题目:给一组整数,按照升序排序,使用选择排序,冒泡排序,插入排序或者任何 O(n2) 的排序算法. 1.冒泡:从头开始,比较相邻的两个元素,大的放在后面.一轮结束之后,最大的数沉底,不参与下一轮比较. ...
- 从无重复大数组找TOP N元素的最优解说起
有一类面试题,既可以考察工程师算法.也可以兼顾实践应用.甚至创新思维,这些题目便是好的题目,有区分度表现为可以有一般解,也可以有最优解.最近就发现了一个这样的好题目,拿出来晒一晒. 1 题目 原文: ...
随机推荐
- 分享一个SQLSERVER脚本(计算数据库中各个表的数据量和每行记录所占用空间)
分享一个SQLSERVER脚本(计算数据库中各个表的数据量和每行记录所占用空间) 很多时候我们都需要计算数据库中各个表的数据量和每行记录所占用空间 这里共享一个脚本 CREATE TABLE #tab ...
- SignalR代理对象异常:Uncaught TypeError: Cannot read property 'client' of undefined 推出的结论
异常汇总:http://www.cnblogs.com/dunitian/p/4523006.html#signalR 后台创建了一个DntHub的集线器 前台在调用的时候出现了问题(经检查是代理对象 ...
- CentOS7 重置root密码
1- 在启动grub菜单,选择编辑选项启动 2 - 按键盘e键,来进入编辑界面 3 - 找到Linux 16的那一行,将ro改为rw init=/sysroot/bin/sh 4 - 现在按下 Con ...
- Android调用微信登陆、分享、支付
前言:用了微信sdk各种痛苦,感觉比qq sdk调用麻烦多了,回调过于麻烦,还必须要在指定包名下的actvity进行回调,所以我在这里写一篇博客,有这个需求的朋友可以借鉴一下,以后自己别的项目有用到也 ...
- 基于window7+caffe实现图像艺术风格转换style-transfer
这个是在去年微博里面非常流行的,在git_hub上的代码是https://github.com/fzliu/style-transfer 比如这是梵高的画 这是你自己的照片 然后你想生成这样 怎么实现 ...
- 常用 meta 整理
<!-- 针对手持设备优化,主要是针对一些老的不识别viewport的浏览器,比如黑莓 --> <meta name="HandheldFriendly" con ...
- 初识git版本控制系统
当下git分布式版本控制系统越来越火,掌握git也是必须的一个技能.因此,对git做了如下学习. Git初级指南 1. 先安装git.(ps:在select cmponents处要勾选Git Bash ...
- asp.net core 实战之 redis 负载均衡和"高可用"实现
1.概述 分布式系统缓存已经变得不可或缺,本文主要阐述如何实现redis主从复制集群的负载均衡,以及 redis的"高可用"实现, 呵呵双引号的"高可用"并不是 ...
- Idea下用SBT搭建Spark Helloworld
没用过IDEA工具,听说跟Eclipse差不多,sbt在Idea其实就等于maven在Eclipse.Spark运行在JVM中,所以要在Idea下运行spark,就先要安装JDK 1.8+ 然后加入S ...
- 怎样在Dos里切换盘符
一:在Dos里切换盘符 a:在电脑左下角右击显示图片;(我用的是win10系统,其他系统类似) b:点击运行,输入cmd; c:点击确定: d:输入盘符:(如f:) 或F: 只写字母,不写分号是不行的 ...