题目描述

给你一个文件,里面包含40亿个整数,写一个算法找出该文件中不包含的一个整数, 假设你有1GB内存可用。

如果你只有10MB的内存呢?

解题思路

对于40亿个整数,如果直接用int数组来表示的大约要用4010^84B=16GB,超出了内存要求,这里

我们可以用bitmap来解决,bitmap基本思想是一位表示一个整数,比如我们有6个数据:

1
7 3 1 5 6 4

假设bitmap容量为8,当插入7时 bit[7]=1,以此类推

bit[3]=1

bit[1]=1

bit[5]=1

……

bit[4]=1

这样我们查询5,只需要查看bit[5]==1侧存在,否则不存在。

这样一个位代表一个数据,那40一个数据大概要4010^8bit = 0.5GB,满足内存要求。

实现细节

首先我们用int来表示:int bmap[1+N/32]; //N是总数,N=40亿,一个int32bit

然后我们插入一个整数val,要先计算val位于数组bmap中的索引:index = val/32;

比如整数33,index=33/32=1,第33位于数组中的index=1

比如整数67,index=67/32=2,位于数组中index=2

然后在计算在这个index中的位置,因为数组中的每个元素有32位

33,index=1,在1中的位置为33%32=1

67,index=2,在2中的位置为67%32=3

然后就是标识这个位置为1:

bmap[val/32] |= (1<<(val%32));

33: bmap[1] != (1<<1);//xxxxxx 1 x,红丝位置被置为1

67: bmap[2] != (1<<3);//xxxx 1 xxx

代码

1
2
3
4
5
6
 
void setVal(int val)
{
bmap[val/32] |= (1<<(val%32));
//bmap[val>>5] != (val&0x1F);//这个更快?
}

怎样检测整数是否存在?

比如我们检测33,同样我们需要计算index,以及在index元素中的位置

33: index = 1, 在bmap[1]中的位置为 1,只需要检测这个位置是否为1

bmp[1] &(1<<1),这样是1返回true,否侧返回false

67:bmp[2]&(1<<3)

127:bmp[3]&(1<<31)

代码:

1
2
3
4
5
bool testVal(int val)
{
return bmap[val/32] & (1<<(val%32));
//return bmap[val>>5] & (val&0x1F);
}

下面是完整测试代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
const int N = MaxN;
const int BitLen = 32;
int bmap[1+N/BitLen];
 
void setVal(int val)
{
bmap[val/BitLen] |= (1<<(val%BitLen));
}
 
bool testVal(int val)
{
return bmap[val/BitLen] & (1<<(val%BitLen));
}
 
void funTest()
{
int a[] = {1, 2, 3, 4, 6, 7};
 
for (int i=0; i<6; ++i)
{
setVal(a[i]);
}
 
std::cout << testVal(5) << std::endl;
return 0;
}

现在我们来看如果内存要求是10MB呢?

这当然不能用bitmap来直接计算。因为从40亿数据找出一个不存在的数据,我们可以将这么多的数据分成许多块, 比如每一个块的大小是1000,那么第一块保存的就是0到999的数,第2块保存的就是1000 到1999的数……

实际上我们并不保存这些数,而是给每一个块设置一个计数器。 这样每读入一个数,我们就在它所在的块对应的计数器加1。

处理结束之后, 我们找到一个块,它的计数器值小于块大小(1000), 说明了这一段里面一定有数字是文件中所不包含的。然后我们单独处理这个块即可。接下来我们就可以用Bit Map算法了。我们再遍历一遍数据, 把落在这个块的数对应的位置1(我们要先把这个数归约到0到blocksize之间)。 最后我们找到这个块中第一个为0的位,其对应的数就是一个没有出现在该文件中的数。)

代码如下(一个测试的代码):

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
const int N = 1000;
const int BITLEN = 32;
const int BLOCK_SIZE = 100;
 
int Bucket[1+N/BLOCK_SIZE]={0};
int BitMap[1+BLOCK_SIZE/BITLEN] = {0};
 
void test()
{
//生成测试数据
freopen("test.txt", "w", stdout);
for (int i=0; i<1000; ++i)
{
if (i == 127)
{
printf("0\n");
continue;
}
printf("%d\n", i);
}
fclose(stdout);
 
//读入测试数据
freopen("test.txt", "r", stdin);
int Value;
while (scanf("%d", &Value) != EOF)
{
++Bucket[Value/BLOCK_SIZE]; //测试数据分段累计
}
fclose(stdin);
 
//找出累计计数小于BLOCK_SIZE的
int Start=-1, i;
for (i=0; i<1+N/BLOCK_SIZE; ++i)
{
if (Bucket[i] < BLOCK_SIZE)
{
Start = i*BLOCK_SIZE;
break;
}
}
if (i == 1+N/BLOCK_SIZE || Bucket[N/BLOCK_SIZE]==0 && i==N/BLOCK_SIZE) return;
int End = Start + BLOCK_SIZE-1;
 
//在不满足的那段用bitmap来检测
freopen("test.txt", "r", stdin);
while (scanf("%d", &Value) != EOF)
{
if (Value >= Start && Value <= End)//Value必须满足在那段
{
int Temp = Value - Start;
BitMap[Temp/BITLEN] |= (1<<(Temp%BITLEN));
}
}
fclose(stdin);
 
//找出不存在的数
freopen("re.txt", "w", stdout);
bool Found = false;
for (int i=0; i<1+BLOCK_SIZE/BITLEN; ++i)
{
for (int k=0; k < BITLEN; ++k)
{
if ((BitMap[i] & (1<<k)) == 0)
{
printf("%d ", i*BITLEN+k+Start);
Found = true;
break;
}
}
if (Found) break;
}
fclose(stdout);
}

参考:http://hawstein.com/posts/12.3.html

关于数据的去重这里有一遍很好的文章是用bitmap来实现:

http://blog.csdn.net/hguisu/article/details/7880288

js中object的copy的更多相关文章

  1. js中Object.defineProperty()和defineProperties()

    在介绍js中Object.defineProperty()和defineProperties()之前,我们了解下js中对象两种属性的类型:数据属性和访问器属性. 数据属性 数据属性包含一个数据的位置, ...

  2. js中object的申明方法

    //js中的对象申明使用new Object(); //object类型的数据类似于数组通过下表来访问其中的值 //example1 var person=new Object(); person.n ...

  3. js 中object对象的操作

    n = object对象 for(var p in n){ console.log(p);// 取得是key值 console.log(n[p]);//取得是value值 } 继之前js中数组的常用方 ...

  4. js中[object Object]与object.prototype.toString.call()

    最近在用node读取文件中的json数据后,用JSON.parse()转成了json,然后响应数据传给前端,发现输出值object对象时显示[object object],在这里我们来看一下他的具体意 ...

  5. 5.1 JS中Object类型

    1.Object类型是引用类型中的一种. 2.创建Object实例(对象)的方式: 方式1:使用new操作符,后面跟上Object构造函数.如: var obj = new Object();//创建 ...

  6. js中object、字符串与正则表达式的方法

    对象 1.object.hasOwnProperty(name) 检测object是否包含一个名为name的属性,那么hasOwnProperty方法返回true,但是不包括其原型上的属性. 正则表达 ...

  7. angular JS中 ‘=’与angular.copy的区别

    先来看代码: <b>{{test1}}</b> <input type="text" ng-model="test2" title ...

  8. JS中Object的一些关于原型的方法

    1.Object.getPrototypeOf(obj) 该方法返回 obj 对象的原型对象,等同于 obj.__proto__.获取对象的原型对象推荐使用该方法而不是 obj.__proto__方法 ...

  9. js中Object.__proto__===Function.prototype

    参考:http://stackoverflow.com/questions/650764/how-does-proto-differ-from-constructor-prototype http:/ ...

随机推荐

  1. 三种系统监控工具对比:top vs Htop vs Glances

    首先启用 EPEL Repository: yum -y install epel-release 启用 EPEL Repository 後, 可以用 yum 直接安裝 Htop: yum -y in ...

  2. 调用百度API将地名转为经纬度

    最近做一道数据科学竞赛题,特征中有城市名和地名,需要转为经纬度来使用 故用python写了一个地名转经纬度的脚本,调用了百度地图的API,key在百度地图开放平台上申请 申请key的地方:http:/ ...

  3. PHP的几种排序方法

    <?php /** * PHP最常用的四个排序方法及二种查找方法 * 下面的排序方法全部都通过测试 * auther : soulence * date : 2015/06/20 */ //PH ...

  4. Django-1版本的路由层、Django的视图层和模板层

    一.Django-1版本的路由层(URLconf) URL配置(URLconf)就像Django所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表:我们就是以这种方式告诉Dja ...

  5. 简明python教程六----编写一个python脚本

    备份程序: #!/usr/bin/python #Filename:backup_ver1.py import os import time source = ['/home/liuxj/python ...

  6. Tensorflow 学习笔记(一)TensorFlow入门

    一.计算模型----计算图 1.1 计算图的概念:TensorFlow就是通过图的形式绘制出张量节点的计算过程,例如下图执行了一个a+b的操作. 1.2 计算图的使用 TensorFlow程序一般分为 ...

  7. mysql二进制包安装和遇到的问题

    一.编译安装 tar -zxf mysql-5.5.32-linux2.6-x86_64.tar.gz mv mysql-5.5.32-linux2.6-x86_64 /application/mys ...

  8. 微信小程序将带来web程序员的春天!

    微信之父张小龙在年初那次演讲中曾表示:“我自己是很多年的程序员,我觉得我们应该为开发的团体做一些事情.”几个月后,微信正式推出微信应用号(即微信小程序)在互联网中掀起又一波热潮. 过去,对于很多开发者 ...

  9. BKDRHash函数

    unsigned int BKDRHash(char*str) { unsigned ;// 31 131 1313 13131 131313 etc.. unsigned ; while(*str) ...

  10. linux中相关服务不能访问的排错技巧

    Linux相关服务不能访问的排错步骤,以HTTP服务为例: 一.服务端排查思路: 1.检查SELinux是否关闭(针对CentOS6系统)  (1)临时关闭      setenforce 0  (2 ...