位图

概念

位图： 所谓位图，就是用每一位来存放某种状态，适用于海量数据，数据无重复的场景。通常是用来判断某个数据存不存在的。

适用场景： 如果我们需要对大量的数据进行处理，判断该数据在不在，比如40亿个整形数据，如果我们用unordered_set来存放这些数据，大约需要占用16G的内存，显然这是不妥的，如果我们选择用一个数据结构，该数据结构可以存放40亿个数据在不在的状态，也就是开42亿个比特位大小的空间（整形数据总共是约42亿个），约500M，这样就可以将数据存下去了。

如下图： （其中1代表在，0代表不在，所以1，2，5，7这几个元素是在的）

原理

补充知识

什么是高地址、低地址？

什么是数据的低位、高位？

小端模式

数据的低位放在低地址空间，数据的高位放在高地址空间

实例讲解

例子1：存放二进制数：1011-0100-1111-0110-1000-1100-0001-0101

注意注意：我们在存放的时候是以一个存储单元为单位来存放，存储单元内部不需要再转变顺序啦！

就例如下面的低位0001-0101存放在0号地址，我们不需要把它变成1010-1000，不需要！！不需要！！

读取数据：注意一定一定是从低地址读起！！！我们知道这是小端存储，所以在读出来的时候会从低位开始放！！！

例子2：存放十六进制数：2AB93584FE1C

十六进制数每一位转化为二进制就是4位：2对应0010，A对应1010，以此类推。所以在存放的时候两个十六进制位就占用一个存储单元

大端模式

数据的高位放在低地址空间，数据的低位放在高地址空间

实例演示：

例子1：存放二进制数：1011-0100-1111-0110-1000-1100-0001-0101

读取数据：注意仍然是从低地址开始读，我们知道这是大端模式，当我们从0号地址读到1011-0100时，我们知道它是高位，所以放到高位的位置上去

例子2：存放十六进制数：2AB93584FE1C

读取数据：注意从低地址开始读取，读到的从高地址开始放！！！

位图原理

位图中的每个数据单元都是一个bit位，这样子平时我们都要话32位4字节来存储数据，而现在我们只需要花1个字节就能”存储数据”，在空间上减少了约32倍的容量。例如40G的数据我们只要花1.3G来存储。但是我们平时操作的数据类型最小就是一个字节，我们不能直接对位进行操作，所以我们可以借助位运算来对数据进行操作。下面我们来看看数据在位图中是如何存储的

我们这里给出一个数组

int arr[] = {1,2,4,5,7,10,11,14,16,17,21,23,24,28,29,31}；则我们只需要花1个字节来存这些数据

解释：我们目前很多的机器都是小端存储，也就是低地址存低位，一个整形数据中，第一个字节用来存储0-7的数字，第二个字节用来存储8-15的数字，第三个字节用来存储16-23的数字，第四个字节用来存储24-31的数字。我们来看看数字10是如何存储的。先通过模上32，取余还是10，然后再将4字节中第10个比特位置为1，则表示该数字出现过。由于我们的机器是小端存储，所以我们的每个比特位都是要从右边开始计算的

所以说我们只需要将对应的比特位置为1即可。但是如果我们要存储的数据很大呢？其实也很简单，我们可以定义一个数组，当做一个位图，如果该数字在0-31之间，我们就存储在0号下标的元素中进行操作，如果在32-63之间，则就在1号下标之间进行操作。计算下标我们可以通过模32来获得下标

实现

整体框架

在实现位图中，我们的成员变量只需要一个数组就可以实现。而这个数组有多我们要开多大呢？数组多开一个整形空间，就能多存32个数字，所以我们可以让用户提供一个准确的数，这个数是一个数据量，也是数的最大范围。我们可以通过该数模上32，就可以获得该数组的大小，但是0~31模上32为0，我们开0个空间那显然不合适，所以我们要开bitCount/32 + 1个空间大小的数组

class bitset

{

public:

	bitset(size_t bitCount)

		:bitCount(bitCount)

	{

		//resize会将vector中的元素初始化为0

		_bitset.resize(bitCount / 32 + 1);

	}

private:

	vector<int> _bitset;

	int bitCount;// 开num比特位的空间

};

把某位置为1

分为三步：

计算出x对应的数组下标： 先确定这个数应该处在第几个数组中，也就是index=x/32
计算处x在对应数组中的比特位的位置： 通过把x对32取模，得到x在第index个整形的第pos个位置
将计算出来的比特位置为1：操作位，我们可以通过位运算来操作，可以先将1左移pos位后再和整数进行或运算

举例：假设pos=5，数据为10010011

将1进行左移5位==>100000
将数据和第一步计算出来的结果进行或运算----->10010011 | 100000 =10110011，此时我们就将指定位置置位1了

代码实现：

// 每个字节用0和1记录某个数字存在状态

	// 把x所在的数据在位图的那一位变成1

	void set(int x)

	{

		if (x > bitCount) return;

		int index = x / 32;// x是第index个整数

		int pos = x % 32;// x是第index个整数的第pos个位

		_bitset[index] |= (1 << pos);

	}

把某位置为0

分为两步：

找到那一位：和上面的方法一样
把这位设置为0：通过先将1进行左移pos位，然后取反，将结果再和原来数据进行与运算

举例：假设pos=5，数据为10110011

将1进行左移5位后并取反011111
将第一步计算出来的结果和数据进行与运算----->10110011 & 011111 = 10010011，删除成功

代码实现：

// 把x所在的数据在位图的那一位变成0

	void reset(int x)

	{

		if (x > bitCount) return;

		int index = x / 32;// x是第index个整数

		int pos = x % 32;// x是滴index个整数的第pos个位

		_bitset[index] &= ~(1 << pos);

	}

判断某位是否为1

分为两步：

找到那一位： 和上面的方法一样
把这位设置为0：将数组下标为index的整数向右移pos位，然后再和1进行与运算，如果为1则表示存在，否则不存在

举例：pos=5，数据为10110011

将数据进行右移5位00000101
将第一步计算出来的结果和1进行与运算----->00000101 & 1 = 1，此时表示该数字存在，返回true

// 判断x是否存在

	bool test(int x)

	{

		if (x > bitCount) return false;

		int index = x / 32;// x是第index个整数

		int pos = x % 32;// x是滴index个整数的第pos个位

		return _bitset[index] & (1 << pos);

	}

完整代码以及测试

#define _CRT_SECURE_NO_WARNINGS

#include<iostream> //引入头文件

#include<vector>

#include <string>

#include <new>

#include<algorithm>

using namespace std; //标准命名空间

class bitset

{

public:

	bitset(size_t bitCount)

		:bitCount(bitCount)

	{

		//resize会将vector中的元素初始化为0

		_bitset.resize(bitCount / 32 + 1);

	}

	// 每个字节用0和1记录某个数字存在状态

	// 把x所在的数据在位图的那一位变成1

	void set(int x)

	{

		if (x > bitCount) return;

		int index = x / 32;// x是第index个整数

		int pos = x % 32;// x是第index个整数的第pos个位

		_bitset[index] |= (1 << pos);

	}

	// 把x所在的数据在位图的那一位变成0

	void reset(int x)

	{

		if (x > bitCount) return;

		int index = x / 32;// x是第index个整数

		int pos = x % 32;// x是滴index个整数的第pos个位

		_bitset[index] &= ~(1 << pos);

	}

	// 判断x是否存在

	bool test(int x)

	{

		if (x > bitCount) return false;

		int index = x / 32;// x是第index个整数

		int pos = x % 32;// x是滴index个整数的第pos个位

		return _bitset[index] & (1 << pos);

	}

private:

	vector<int> _bitset;

	int bitCount;// 开num比特位的空间

};

void TesstBitset1()

{

	bitset bs(100);

	bs.set(99);

	bs.set(0);

	bs.set(98);

	bs.set(55);

	bs.set(75);

	bs.set(35);

	;

	bs.reset(99);

	bs.reset(87);

	for (size_t i = 0; i <= 100; ++i)

	{

		cout << i << ":" << bs.test(i) << " ";

		if (i != 0 && i % 10 == 0)

			cout << endl;

	}

}

int main() {

	TesstBitset1();

	system("pause");

	return EXIT_SUCCESS;

}

运行结果如下：

位图的应用

有以下几个：

快速查找某个数据是否在一个集合中
排序+去重
操作系统中磁盘的标记等

缺点： 只能处理整形数据

布隆过滤器

引入

我们在使用新闻客户端看新闻时，它会给我们不停地推荐新的内容，它每次推荐时要去重，去掉那些已经看过的内容。问题来了，新闻客户端推荐系统如何实现推送去重的？用服务器记录了用户看过的所有历史记录，当推荐系统推荐新闻时会从每个用户的历史记录里进行筛选，过滤掉那些已经存在的记录。

如何快速查找？

哈希表： 用哈希表存储用户的历史记录。缺点： 空间消耗比较大
位图： 用位图存储用户的历史记录。 缺点： 位图一般只能处理整形，如果内容编号是字符串，就无法处理了。但我们可以使用一些哈希算法把字符串类型转换成整型，比如BKDR哈希算法，但是这里还存在一个问题。字符串的组合方式太多了，一个字符的取值有256种，一个数字只有10种，所以不可避免会出现哈希冲突
布隆过滤器： 将哈希表和位图结合使用。

概念

布隆过滤器是由布隆（Burton Howard Bloom）在1970年提出的一种紧凑的、比较巧妙的概率型数据结构，特点是高效地插入和查询

布隆过滤器其实就是位图的一个变形和延申，虽然无法避免哈希冲突，但我们可以想办法降低误判的概率；当一个数据映射到位图中时，布隆过滤器会用多个哈希函数映射到多个比特位，当判断一个数据是否在位图当中时，需要分别根据这些哈希函数计算出对应的比特位，比特位设置了代表着当前状态的默认值，设置为 1 则判定为该数据存在，这一点很类似于我们定义红黑数的节点颜色。

布隆过滤器使用多个哈希函数进行映射，目的就在于降低哈希冲突的概率，一个哈希函数产生冲突的概率可能比较大，但多个哈希函数同时产生冲突的概率可就没那么大了！

举个例子：针对值 “source” 和三个不同的哈希函数分别生成了哈希值 2、4、7

现在，如果我们要查询"source"这个字符串是否存在，就要判断位图中下标2，4，7对应的值是否均为1，若是，则说明此字符串“可能”存在。注意这里就可能出现误判了（下面介绍）

布隆过滤器误判

布隆过滤器是一个大型位图（bit数组或向量） + 多个无偏哈希函数

如果我们要映射一个值到布隆过滤器中，我们需要使用多个不同的哈希函数生成多个哈希值，并对每个生成的哈希值指向的 bit 位置 1，例如针对值 “source” 和三个不同的哈希函数分别生成了哈希值 2、4、7，则有下图

现在，如果我们要查询"source"这个字符串是否存在，就要判断位图中下标2，4，7对应的值是否均为1，若是，则说明此字符串“可能”存在。注意这里就可能出现误判了，至于为什么我们先再存一个字符串"create"，假设哈希函数返回3，4，8，则对应的图如下：

值得注意的是，4 这个 bit 位由于两个值的哈希函数都返回了这个 bit 位，因此它被覆盖了。现在我们如果想查询 “flower” 这个值是否存在，哈希函数返回了 2、5、8三个值，结果我们发现 5 这个 bit 位上的值为 0，说明没有任何一个值映射到这个 bit 位上，因此我们可以很确定地说 “flower” 这个值不存在。而当我们需要查询 “source” 这个值是否存在的话，那么哈希函数必然会返回 2、4、7，然后我们检查发现这三个 bit 位上的值均为 1，那么我们可以说 “source” 存在了么？答案是不可以，只能是 “source” 这个值可能存在（发生了误判）。
这是为什么呢？答案很简单，因为随着增加的值越来越多，被置为 1 的 bit 位也会越来越多，这样某个值 “taobao” 即使没有被存储过，但是万一哈希函数返回的三个 bit 位都被其他值置位了 1 ，那么程序还是会判断 “taobao” 这个值存在。像上面的字符串source，哈希函数返回的是2，4，7，可是先前的字符串create，哈希函数返回的是3，4，8，你怎么知道比特位4的值对应的是字符串source呢？我说它是字符串create的也没毛病吧，因此“source”可能存在。这就是误判出现的典型现象。

总结：布隆过滤器是无法解决误判的问题的，一个key通过多种哈希函数映射多个比特位只能说是降低误判的概率，但无法去除。

布隆过滤器优缺点

优点：

增加和查询元素的时间复杂度为:O(K), (K为哈希函数的个数，一般比较小)，与数据量大小无关
哈希函数相互之间没有关系，方便硬件并行运算
布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势
在能够承受一定的误判时，布隆过滤器比其他数据结构有这很大的空间优势
数据量很大时，布隆过滤器可以表示全集，其他数据结构不能
使用同一组散列函数的布隆过滤器可以进行交、并、差运算

缺点：

有误判率，即存在假阳性(False Position)，即不能准确判断元素是否在集合中(补救方法：再建立一个白名单，存储可能会误判的数据)
不能获取元素本身
一般情况下不能从布隆过滤器中删除元素
如果采用计数方式删除，可能会存在计数回绕问题

误判控制

很显然，过小的布隆过滤器很快所有的 bit 位均为 1，那么查询任何值都会返回“可能存在”，起不到过滤的目的了。布隆过滤器的长度会直接影响误报率，布隆过滤器越长其误报率越小。
另外，哈希函数的个数也需要权衡，个数越多则布隆过滤器 bit 位置位 1 的速度越快，且布隆过滤器的效率越低；但是如果太少的话，那我们的误报率会变高。

大佬在权衡过其中的关系后得出了一套比较得当的公式：

k 是哈希函数个数

m 为布隆过滤器长度

n为插入的元素个数

p为误判率

实现

整体框架

这里用到了上一篇博客中的位图实现，其中这里放置了3个哈希函数，用了映射不同的概率。

在这里完整代码bitset.h文件

#pragma once

#include<iostream> //引入头文件

#include<vector>

#include <string>

#include <new>

#include<algorithm>

using namespace std; //标准命名空间

class bitset

{

public:

	bitset(size_t bitCount)

		:bitCount(bitCount)

	{

		//resize会将vector中的元素初始化为0

		_bitset.resize(bitCount / 32 + 1);

	}

	// 每个字节用0和1记录某个数字存在状态

	// 把x所在的数据在位图的那一位变成1

	void set(int x)

	{

		if (x > bitCount) return;

		int index = x / 32;// x是第index个整数

		int pos = x % 32;// x是第index个整数的第pos个位

		_bitset[index] |= (1 << pos);

	}

	// 把x所在的数据在位图的那一位变成0

	void reset(int x)

	{

		if (x > bitCount) return;

		int index = x / 32;// x是第index个整数

		int pos = x % 32;// x是滴index个整数的第pos个位

		_bitset[index] &= ~(1 << pos);

	}

	// 判断x是否存在

	bool test(int x)

	{

		if (x > bitCount) return false;

		int index = x / 32;// x是第index个整数

		int pos = x % 32;// x是滴index个整数的第pos个位

		return _bitset[index] & (1 << pos);

	}

private:

	vector<int> _bitset;

	int bitCount;// 开num比特位的空间

};

哈希函数个数和布隆过滤器长度的关系：

m = -n*ln(p) / (ln(2)^2)

k = m/n * ln(2)

k 是哈希函数个数

m 为布隆过滤器长度

n为插入的元素个数

p为误判率

其中k=3，整体算下来，m≈4.34n，所以这里我们选择m为5

template<class T = string, class Hash1 = BKDRHash, class Hash2 = SDBHash, class Hash3 = RSHash>

class BloomFilter

{

public:

	// 布隆过滤器的长度 近似等于4.3~5倍插入元素的个数

	// 这里取 5

	BloomFilter(size_t size)

		:_bs(5 * size)

		, _N(5 * size)

	{}

private:

	bitset _bs;

	size_t _N;// 能够映射元素个数

};

三个字符串哈希函数如下： 用他们作为缺省参数，默认处理字符串类型

// BKDRHash

struct BKDRHash

{

	size_t operator()(const string& str)

	{

		register size_t hash = 0;

		for (size_t i = 0; i < str.length(); ++i)

		{

			hash = hash * 131 + str[i];

		}

		return hash;

	}

};

// SDBHash

struct SDBHash

{

	size_t operator()(const string str)

	{

		register size_t hash = 0;

		for (size_t i = 0; i < str.length(); ++i)

		{

			hash = 65599 * hash + str[i];

			//hash = (size_t)ch + (hash << 6) + (hash << 16) - hash;

		}

		return hash;

	}

};

// RSHash

struct RSHash

{

	size_t operator()(const string str)

	{

		register size_t hash = 0;

		size_t magic = 63689;

		for (size_t i = 0; i < str.length(); ++i)

		{

			hash = hash * magic + str[i];

			magic *= 378551;

		}

		return hash;

	}

};

插入

布隆过滤器的插入就是提供一个Set接口，核心思想就是把插入的元素通过三个哈希函数获取对应的整型并%比特位数从而获得对应的3个映射位置，再把这三个位置置为1即可

步骤

先用不同的哈希函数计算出该数据分别要映射到位图的哪几个位置
然后把位图中的这几个位置设置为1

void set(const T& x)

{

	size_t index1 = Hash1()(x) % _N;

	size_t index2 = Hash2()(x) % _N;

	size_t index3 = Hash3()(x) % _N;

	_bs.set(index1);

	_bs.set(index2);

	_bs.set(index3);

}

查找

布隆过滤器的思想是将一个元素用多个哈希函数映射到一个位图中，因此被映射到的位置的比特位一定为

步骤：

先用不同的哈希函数计算出该数据分别要映射到位图的哪几个位置
然后判断位图中的这几个位置是否都为1，如果有一个不为1，说明该元素一定不在容器中，否则表示在容器中

注意： 可能会误报，判断在是不准确的，判断不在是准确的。（因为一个数据判断出它是在的，可能是它映射的几个数据可能是其它数据映射导致这几个位置为1的，所以判断结果为在，该结果有误判；而判断一个数据为不在时，那这个数据是一定不在的，因为它映射的几个位置不全为1）

bool IsInBloomFilter(const T& x)

{

	size_t index1 = Hash1()(x) % _N;

	size_t index2 = Hash2()(x) % _N;

	size_t index3 = Hash3()(x) % _N;

	return _bs.test(index1)

		&& _bs.test(index2)

		&& _bs.test(index3);// 可能会误报，判断在是不准确的，判断不在是准确的

}

删除

布隆过滤器不能直接支持删除工作，因为在删除一个元素时，可能会影响其他元素。

比如：删除上图中"create"元素，如果直接将该元素所对应的二进制比特位置0，“source”元素也被删除了，因为这两个元素在多个哈希函数计算出的比特位上刚好有重叠。

一种支持删除的方法（计数法删除）：

将布隆过滤器中的每个比特位扩展成一个小的计数器，插入元素时给k个计数器(k个哈希函数计算出的哈希地址)加一，删除元素时，给k个计数器减一，通过多占用几倍存储空间的代价来增加删除操作。
缺陷：
1. 无法确认元素是否真正在布隆过滤器中
2. 存在计数回绕

当然，为什么至今过滤器都没有提供对应的删除接口呢？其实过滤器的本来目的就是为了提高效率和节省空间，但是在确认存在时去遍历文件，文件 IO 和磁盘 IO 的时间开销是不小的，其次在每个比特位增加额外的计数器，更是让空间开销飙升到本身的好几倍。

完整代码以及测试

BloomFilter.cpp文件

#define _CRT_SECURE_NO_WARNINGS

#include"bitset.h"

template<class T>

struct Hash

{

	const T& operator()(const T& key)

	{

		return key;

	}

};

// BKDRHash

struct BKDRHash

{

	size_t operator()(const string& str)

	{

		register size_t hash = 0;

		for (size_t i = 0; i < str.length(); ++i)

		{

			hash = hash * 131 + str[i];

		}

		return hash;

	}

};

// SDBHash

struct SDBHash

{

	size_t operator()(const string str)

	{

		register size_t hash = 0;

		for (size_t i = 0; i < str.length(); ++i)

		{

			hash = 65599 * hash + str[i];

			//hash = (size_t)ch + (hash << 6) + (hash << 16) - hash;

		}

		return hash;

	}

};

// RSHash

struct RSHash

{

	size_t operator()(const string str)

	{

		register size_t hash = 0;

		size_t magic = 63689;

		for (size_t i = 0; i < str.length(); ++i)

		{

			hash = hash * magic + str[i];

			magic *= 378551;

		}

		return hash;

	}

};

template<class T = string, class Hash1 = BKDRHash, class Hash2 = SDBHash, class Hash3 = RSHash>

class BloomFilter

{

public:

	// 布隆过滤器的长度 近似等于4.3~5倍插入元素的个数

	// 这里取 5

	BloomFilter(size_t size)

		:_bs(5 * size)

		, _N(5 * size)

	{}

	void set(const T& x)

	{

		size_t index1 = Hash1()(x) % _N;

		size_t index2 = Hash2()(x) % _N;

		size_t index3 = Hash3()(x) % _N;

		_bs.set(index1);

		_bs.set(index2);

		_bs.set(index3);

	}

	bool IsInBloomFilter(const T& x)

	{

		size_t index1 = Hash1()(x) % _N;

		size_t index2 = Hash2()(x) % _N;

		size_t index3 = Hash3()(x) % _N;

		return _bs.test(index1)

			&& _bs.test(index2)

			&& _bs.test(index3);// 可能会误报，判断在是不准确的，判断不在是准确的

	}

private:

	bitset _bs;

	size_t _N;// 能够映射元素个数

};

void TestBloomFilter()

{

	BloomFilter<string> bf(100);

	bf.set("douyin");

	bf.set("kuaishou");

	bf.set("pass cet6");

	bf.set("aabb");

	cout << bf.IsInBloomFilter("pass cet6") << endl;

	cout << bf.IsInBloomFilter("kuaishou") << endl;

	cout << bf.IsInBloomFilter("douyin") << endl;

	cout << bf.IsInBloomFilter("abab") << endl;

}

int main() {

	TestBloomFilter();

	system("pause");

	return EXIT_SUCCESS;

}

布隆过滤器优缺点

优点：

增加和查询元素的时间复杂度为:O(K)， (K为哈希函数的个数，一般比较小)，与数据量大小无关
哈希函数相互之间没有关系，方便硬件并行运算
布隆过滤器不需要存储元素本身，在某些对保密要求比较严格的场合有很大优势
在能够承受一定的误判时，布隆过滤器比其他数据结构有这很大的空间优势
数据量很大时，布隆过滤器可以表示全集，其他数据结构不能
使用同一组散列函数的布隆过滤器可以进行交、并、差运算

缺点：

有误判率，即存在假阳性(False Position)，即不能准确判断元素是否在集合中(补救方法：再建立一个白名单，存储可能会误判的数据)
不能获取元素本身
一般情况下不能从布隆过滤器中删除元素
如果采用计数方式删除，可能会存在计数回绕问题

海量数据处理问题

哈希切割

给一个超过100G大小的log file, log中存着IP地址, 设计算法找到出现次数最多的IP地址？如何找到top K的IP？如何直接用Linux系统命令实现？

a. 先创建1000个小文件A0-A999，然后计算i = hash(IP)%1000，i是多少，IP就进入编号为i的文件中，也就是Ai文件中，这样相同的IP就都进入了同一个文件中。先将一个小文件加载到内存中，依次读取放入unordered_map<string, int> 中，同时用一个pair<string, int> max记录当前出现次数最多的IP，然后不断更新记录当前的max，这样就得到出现次数最多的IP地址

b. 和上面的方法一样，这里用一个大小为K的堆来存储topK的IP

位图应用

1.给定100亿个整数，设计算法找到只出现一次的整数？

100亿个整数占用40G的空间，如果直接加载到内存中，空间肯定是不够的，所以我们这里可以考虑用位图来处理。

方案一： 改进位图，用两个比特位表示整数，用其中的三种状态00（没出现）、01（出现一次）和10（出现两次及以上）。消耗内存为：2*4 *(2^32-1)/32 byte≈1G

方案二： 用两个位图同时操作，对应比特位无数据时，两个位图此处设为0，有一个数据时，将两个位图中一个设为0，一个设为1，有两个及以上数据时，两个位图中对于比特位都设置为1。消耗空间和上面那种方法一样，也是1G

2.给两个文件，分别有100亿个整数，我们只有1G内存，如何找到两个文件交集？

方案一： 将文件1的整数映射到一个位图中，然后读取文件2中的数据，判断是否在位图中，在就是交集，消耗内存500M

方案二： 将文件1的整数映射到一个位图中，将文件2的整数映射到另一个位图中，然后将两个位图进行按位与，与之后位图中为1的位就是两个文件的交集

3.位图应用变形：1个文件有100亿个int，1G内存，设计算法找到出现次数不超过2次的所有整数

方案： 和第一题思路一致，找出状态为00、01和10的即可，其中状态为11代表的是出现3次及以上。消耗内存为1G

布隆过滤器

1.给两个文件，分别有100亿个query，我们只有1G内存，如何找到两个文件交集？分别给出精确算法和近似算法

query是一个查询语句的意思，一个query语句的大小平均约为30-60字节100亿个query大约占用300-600G。

方案一（近似算法）：将文件1的query映射到布隆过滤器中，读取文件2中的query，判断是否在布隆过滤器中，在就是交集，是交集的一定在里面。（缺陷：交集中的数会不准确，因为有些数会误判，混到交集里面，判断在是不准确的，判断不在是准确的）

方案二（精确算法）：

1.把文件1和文件2分别切分成A0、A1…A999和B0、B1…B999，两个文件分别切分成1000个小文件，然后将A0加载到内存放到unordered_set中，再依次和B0、B1…B999这10001个文件进行比较，然后加载A1到内存中，以此类推。用unordered_set的效率还是很高的，基本上是常数次。

2.优化：哈希切分

不再使用平均切分，使用哈希切分，用公式：i = Hash(query)%1000。i是多少就进入编号为i的文件中。不同的query可能会进入编号不同的文件中，但相同的query一定会进入编号相同的文件中。

先将文件Ai加载到内存中，放到unordered_set中，然后读取Bi中query，判断是否在，在就是交集。这里只需要比较1000次，比上面那种方式比较次数少很多。

2.如何扩展BloomFilter使得它支持删除元素的操作

方案： 用几个比特位来表示计数器。缺陷：给的为如果少了，容易导致计数溢出，如果位数多了，那么空间开销就会很多，是以牺牲布隆过滤器的优势为代价的。

C++进阶（位图+布隆过滤器的概念和实现+海量数据处理）的更多相关文章

【转】Bloom Filter布隆过滤器的概念和原理
转自:http://blog.csdn.net/jiaomeng/article/details/1495500 之前看数学之美丽,里面有提到布隆过滤器的过滤垃圾邮件,感觉到何其的牛,竟然有这么高效的 ...
Bloom Filter(布隆过滤器)的概念和原理
Bloom filter 适用范围:可以用来实现数据字典,进行数据的判重,或者集合求交集基本原理及要点: 对于原理来说很简单,位数组+k个独立hash函数.将hash函数对应的值的位数组置1,查找时 ...
Golang中的布隆过滤器
目录 1. 布隆过滤器的概念 2. 布隆过滤器应用场景 3. 布隆过滤器工作原理 4. 布隆过滤器的优缺点 5. 布隆过滤器注意事项 6. Go实现布隆过滤器 1. 布隆过滤器的概念布隆过滤器(Bl ...
布隆过滤器（Bloom Filters）的原理及代码实现（Python + Java）
本文介绍了布隆过滤器的概念及变体,这种描述非常适合代码模拟实现.重点在于标准布隆过滤器和计算布隆过滤器,其他的大都在此基础上优化.文末附上了标准布隆过滤器和计算布隆过滤器的代码实现(Java版和Pyt ...
从位图到布隆过滤器，C#实现
前言本文将以 C# 语言来实现一个简单的布隆过滤器,为简化说明,设计得很简单,仅供学习使用. 感谢@时总百忙之中的指导. 布隆过滤器简介布隆过滤器(Bloom filter)是一种特殊的 Hash ...
【Redis的那些事 · 续集】Redis的位图、HyperLogLog数据结构演示以及布隆过滤器
一.Redis位图 1.位图的最小单位是bit,每个bit的值只能是0和1,位图的应用场景一般用于一些签到记录,例如打卡等. 场景举例: 例如某APP要存储用户的打卡记录,如果按照正常的思路来做,可能 ...
Redis解读（4）：Redis中HyperLongLog、布隆过滤器、限流、Geo、及Scan等进阶应用
Redis中的HyperLogLog 一般我们评估一个网站的访问量,有几个主要的参数: pv,Page View,网页的浏览量 uv,User View,访问的用户一般来说,pv 或者 uv 的统计 ...
BloomFilter(布隆过滤器)
原文链接:http://blog.csdn.net/qq_38646470/article/details/79431659 1.概念: 如果想判断一个元素是不是在一个集合里,一般想到的是将所有元素保 ...
C++布隆过滤器
布隆过滤器这名词有没有听着好像很挺高大上的,的确,它也是一种很重要的结构,下面一起看看: 一:说说历史: (Bloom Filter)是由布隆(Burton Howard Bloom)在1970年 ...
Redis详解（十三）------ Redis布隆过滤器
本篇博客我们主要介绍如何用Redis实现布隆过滤器,但是在介绍布隆过滤器之前,我们首先介绍一下,为啥要使用布隆过滤器. 1.布隆过滤器使用场景比如有如下几个需求: ①.原本有10亿个号码,现在又来了 ...

随机推荐

SpringSecurity 在 SSM架构中的使用
SpringSecurity - SSM SpringSecurity 对比 Shiro SpringSecurity的特点: 能和 Spring无缝贴合能实现全面的权限控制专门为 Web开发而设 ...
Windows常用快捷键及基本的Dos命令
Windows 常用快捷键 Ctrl + C: 复制 Ctrl + V: 粘贴 Ctrl + A: 全选 Ctrl + X: 剪贴 Ctrl + Z: 撤销 Ctrl + S: 保存 Alt + F4 ...
hmtl5 web SQL 和indexDB
前端缓存有cookie,localStorage,sessionStorage,webSQL,indexDB: cookie:有缺点 localStorage:功能单一 sessionStorage: ...
Pytest进阶使用
fixture 特点: 命令灵活:对于setup,teardown可以省略数据共享:在conftest.py配置里写方法可以实现数据共享,不需要import导入,可以跨文件共享 scope的层次及神 ...
UDP协议的网络编程
public class UDPTest { //发送端@Testpublic void sender() throws IOException { DatagramSocket socket = n ...
CCS 2022 极客少年挑战赛 writeup
目录题目一DSDS 操作内容: 题目二 easy_re 操作内容: flag值: 题目三 1+1=all 解题过程题目一DSDS 操作内容: 开环境然后进入网址在网址后./目录进入目录得到个 ...
齐博x1齐博首创钩子的使用方法
齐博X1有两套钩子体系,第一套是基于TP思路设计的.跟外面的大同小异.现在重点讲一下第二套我们首创的使用方法. 首先说一下如何埋钩子,这个跟TP思路的钩子类似,就是在页面的任何地方加入如下代码即可如下 ...
Droplet——一款轻量的Golang应用层框架
Github地址如标题所描述的,Droplet 是一个轻量的中间层框架,何为中间层呢? 通常来说,我们的程序(注意这里我们仅仅讨论程序的范围,而非作为一个系统,因此这里不设计如 LB.Gate ...
题解UVA10948 The primary problem
前言前置 \(\sf{Solution}\) 既然有了 \(n\) ,那找出 \(a\) 和 \(b\) 就只要枚举 \(a\) 的范围 \(1\sim n\),判断 \(a\) 和 \(n-a\) ...
驱动开发：内核封装WSK网络通信接口
本章LyShark将带大家学习如何在内核中使用标准的Socket套接字通信接口,我们都知道Windows应用层下可直接调用WinSocket来实现网络通信,但在内核模式下应用层API接口无法使用,内核 ...

C++进阶（位图+布隆过滤器的概念和实现+海量数据处理）

位图

概念

原理

补充知识

什么是高地址、低地址？

什么是数据的低位、高位？

小端模式

大端模式

位图原理

实现

整体框架

把某位置为1

把某位置为0

判断某位是否为1

完整代码以及测试

位图的应用

布隆过滤器

引入

概念

布隆过滤器误判

布隆过滤器优缺点

误判控制

实现

整体框架

插入

查找

删除

完整代码以及测试

布隆过滤器优缺点

海量数据处理问题

哈希切割

位图应用

布隆过滤器

C++进阶（位图+布隆过滤器的概念和实现+海量数据处理）的更多相关文章

随机推荐

热门专题