题目描述

给你一个文件，里面包含40亿个整数，写一个算法找出该文件中不包含的一个整数，假设你有1GB内存可用。

如果你只有10MB的内存呢？

解题思路

对于40亿个整数，如果直接用int数组来表示的大约要用4010^84B=16GB,超出了内存要求，这里

我们可以用bitmap来解决，bitmap基本思想是一位表示一个整数，比如我们有6个数据：

1	7 3 1 5 6 4

假设bitmap容量为8，当插入7时 bit[7]=1，以此类推

bit[3]=1

bit[1]=1

bit[5]=1

……

bit[4]=1

这样我们查询5，只需要查看bit[5]==1侧存在，否则不存在。

这样一个位代表一个数据，那40一个数据大概要4010^8bit = 0.5GB,满足内存要求。

实现细节

首先我们用int来表示：int bmap[1+N/32]; //N是总数，N=40亿，一个int32bit

然后我们插入一个整数val，要先计算val位于数组bmap中的索引:index = val/32;

比如整数33，index=33/32=1,第33位于数组中的index=1

比如整数67，index=67/32=2,位于数组中index=2

然后在计算在这个index中的位置，因为数组中的每个元素有32位

33，index=1，在1中的位置为33%32=1

67，index=2，在2中的位置为67%32=3

然后就是标识这个位置为1：

bmap[val/32] |= (1<<(val%32));

33: bmap[1] != (1<<1);//xxxxxx 1 x,红丝位置被置为1

67: bmap[2] != (1<<3);//xxxx 1 xxx

代码

void setVal(int val)

{

bmap[val/32] |= (1<<(val%32));

//bmap[val>>5] != (val&0x1F);//这个更快？

}

怎样检测整数是否存在？

比如我们检测33，同样我们需要计算index，以及在index元素中的位置

33: index = 1, 在bmap[1]中的位置为 1，只需要检测这个位置是否为1

bmp[1] &(1<<1),这样是1返回true，否侧返回false

67:bmp[2]&(1<<3)

127:bmp[3]&(1<<31)

代码：

bool testVal(int val)

{

return bmap[val/32] & (1<<(val%32));

//return bmap[val>>5] & (val&0x1F);

}

下面是完整测试代码：

const int N = MaxN;

const int BitLen = 32;

int bmap[1+N/BitLen];

void setVal(int val)

{

bmap[val/BitLen] |= (1<<(val%BitLen));

}

bool testVal(int val)

{

return bmap[val/BitLen] & (1<<(val%BitLen));

}

void funTest()

{

int a[] = {1, 2, 3, 4, 6, 7};

for (int i=0; i<6; ++i)

{

setVal(a[i]);

}

std::cout << testVal(5) << std::endl;

return 0;

}

现在我们来看如果内存要求是10MB呢？

这当然不能用bitmap来直接计算。因为从40亿数据找出一个不存在的数据，我们可以将这么多的数据分成许多块，比如每一个块的大小是1000，那么第一块保存的就是0到999的数，第2块保存的就是1000 到1999的数……

实际上我们并不保存这些数，而是给每一个块设置一个计数器。这样每读入一个数，我们就在它所在的块对应的计数器加1。

处理结束之后，我们找到一个块，它的计数器值小于块大小(1000)，说明了这一段里面一定有数字是文件中所不包含的。然后我们单独处理这个块即可。接下来我们就可以用Bit Map算法了。我们再遍历一遍数据，把落在这个块的数对应的位置1(我们要先把这个数归约到0到blocksize之间)。最后我们找到这个块中第一个为0的位，其对应的数就是一个没有出现在该文件中的数。)

代码如下（一个测试的代码）：

const int N = 1000;

const int BITLEN = 32;

const int BLOCK_SIZE = 100;

int Bucket[1+N/BLOCK_SIZE]={0};

int BitMap[1+BLOCK_SIZE/BITLEN] = {0};

void test()

{

//生成测试数据

freopen("test.txt", "w", stdout);

for (int i=0; i<1000; ++i)

{

if (i == 127)

{

printf("0\n");

continue;

}

printf("%d\n", i);

}

fclose(stdout);

//读入测试数据

freopen("test.txt", "r", stdin);

int Value;

while (scanf("%d", &Value) != EOF)

{

++Bucket[Value/BLOCK_SIZE]; //测试数据分段累计

}

fclose(stdin);

//找出累计计数小于BLOCK_SIZE的

int Start=-1, i;

for (i=0; i<1+N/BLOCK_SIZE; ++i)

{

if (Bucket[i] < BLOCK_SIZE)

{

Start = i*BLOCK_SIZE;

break;

}

if (i == 1+N/BLOCK_SIZE || Bucket[N/BLOCK_SIZE]==0 && i==N/BLOCK_SIZE) return;

int End = Start + BLOCK_SIZE-1;

//在不满足的那段用bitmap来检测

freopen("test.txt", "r", stdin);

while (scanf("%d", &Value) != EOF)

{

if (Value >= Start && Value <= End)//Value必须满足在那段

{

int Temp = Value - Start;

BitMap[Temp/BITLEN] |= (1<<(Temp%BITLEN));

}

fclose(stdin);

//找出不存在的数

freopen("re.txt", "w", stdout);

bool Found = false;

for (int i=0; i<1+BLOCK_SIZE/BITLEN; ++i)

{

for (int k=0; k < BITLEN; ++k)

{

if ((BitMap[i] & (1<<k)) == 0)

{

printf("%d ", i*BITLEN+k+Start);

Found = true;

break;

}

if (Found) break;

}

fclose(stdout);

}

参考：http://hawstein.com/posts/12.3.html

关于数据的去重这里有一遍很好的文章是用bitmap来实现：

http://blog.csdn.net/hguisu/article/details/7880288

js中object的copy的更多相关文章

js中Object.defineProperty()和defineProperties()
在介绍js中Object.defineProperty()和defineProperties()之前,我们了解下js中对象两种属性的类型:数据属性和访问器属性. 数据属性数据属性包含一个数据的位置, ...
js中object的申明方法
//js中的对象申明使用new Object(); //object类型的数据类似于数组通过下表来访问其中的值 //example1 var person=new Object(); person.n ...
js 中object对象的操作
n = object对象 for(var p in n){ console.log(p);// 取得是key值 console.log(n[p]);//取得是value值 } 继之前js中数组的常用方 ...
js中[object Object]与object.prototype.toString.call()
最近在用node读取文件中的json数据后,用JSON.parse()转成了json,然后响应数据传给前端,发现输出值object对象时显示[object object],在这里我们来看一下他的具体意 ...
5.1 JS中Object类型
1.Object类型是引用类型中的一种. 2.创建Object实例(对象)的方式: 方式1:使用new操作符,后面跟上Object构造函数.如: var obj = new Object();//创建 ...
js中object、字符串与正则表达式的方法
对象 1.object.hasOwnProperty(name) 检测object是否包含一个名为name的属性,那么hasOwnProperty方法返回true,但是不包括其原型上的属性. 正则表达 ...
angular JS中 ‘=’与angular.copy的区别
先来看代码: <b>{{test1}}</b> <input type="text" ng-model="test2" title ...
JS中Object的一些关于原型的方法
1.Object.getPrototypeOf(obj) 该方法返回 obj 对象的原型对象,等同于 obj.__proto__.获取对象的原型对象推荐使用该方法而不是 obj.__proto__方法 ...
js中Object.__proto__===Function.prototype
参考:http://stackoverflow.com/questions/650764/how-does-proto-differ-from-constructor-prototype http:/ ...

随机推荐

巨蟒python全栈开发flask7 语音识别升级版&&mongoDB
1.web简陋版玩具首先,复制上一节课的内容,将其中的语音文件删除掉, 放入三个文件,然后,我们需要在app写入下面的内容下图是需要修改的地方: Recorder_ok.js是一个web录音的工具 ...
Spring Mvc4 新特性（一）
前言 Spring Framework的Web层,由spring-web,spring-webmvc,spring-websocket和spring-webmvc-portlet模块组成. 很多人刚学 ...
8.Query Documents-官方文档摘录
总结 1 先插入数据 db.inventory.insertMany([ { item: "journal", qty: 25, size: { h: 14, w: 21, uom ...
Linux学习笔记（13）linux软件安装rpm与yum--理论篇
该文章linux知识点如下 1.linux中软件包介绍 2.linux源码软件安装 3.linux二进制软件安装 4.linux rpm软件包管理 5.linux yum软件包管理 1.linux中 ...
006-虚拟机中centos7实现nat静态ip上网
1.设置虚拟机网卡VMnet8 2.修改虚拟机参数 (1).点击编辑-->虚拟网络编辑器,如下图设置 (2)nat设置如下[使用默认即可,记住网关.掩码等,非常重要,因为在centos里面要设置 ...
PAT 1081 Rational Sum[分子求和][比较]
1081 Rational Sum (20 分) Given N rational numbers in the form numerator/denominator, you are suppose ...
Swap 2 Variables in Python
In Python, it's concise, easy and faster to swap 2 variables compared in other Programming languages ...
移动app自动化测试
原文出处https://www.toutiao.com/i6473606106970063374/ 原文作者是今日头条的:一个字头的诞生在此感谢原文作者的无私分享! 移动App自动化测试(一) 目前 ...
iOS程序的启动过程介绍
大家在学习iPhone开发时候,都会写HelloWorld程序.大家一般都是通过向导,生成项目,然后通过模拟器启动应用程序.但是大家知道其背后的启动过程吗?也就是当点击程序图标启动程序开始到退出程序整 ...
卸载OpenJDK安装JDK
卸载OpenJDK安装JDK rpm -qa | grep java rpm -qa | jdk java rpm -qa | grep java| xargs rpm -e --nodeps rpm ...

js中object的copy

题目描述

解题思路

实现细节

js中object的copy的更多相关文章

随机推荐

热门专题