写在前面

开发过程中会经常处理集合这种数据结构,简单点的处理方法都是使用内置的map实现。但是如果要应对大量数据,例如,存放大量电话号码,使用map占用内存大的问题就会凸显出来。内存占用高又会带来一些列的问题,这里就不展开说了。还有就是,大量数据存放于map,查找的哈希算法消耗也会很高。这时就该考虑对数据结构进行优化。之前浏览awesome-go时发现了一种叫bitset的数据结构,今天就介绍一下它。

bitset 简介

首先这是一个数据结构。从名字set不难发现,这是一个集合的数据结构。bit的含义也比较好懂,通过set是通过bit实现的。如果你需要一个集合,正好集合内的元素都是正整数,那么用这个就没错了。

注:biset 有时也会被叫做 Bitmap。

Example

import "github.com/willf/bitset"

var b bitset.BitSet // 定义一个BitSet对象
b.Set().Set() // 给这个set新增两个值10和11
if b.Test() { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
b.Clear() // 情况set
}
for i,e := v.NextSet(); e; i,e = v.NextSet(i + ) { // 遍历整个Set
fmt.Println("The following bit is set:",i);
}
if B.Intersection(bitset.New().Set()).Count() > { // set求交集
fmt.Println("Intersection works.")
}

这个包功能已经非常完善了,完整的文档可以参考它的godoc。我使用这些包,除了看重基础功能(对于集合,就是增删改查这些),还有就是得方便调试。bitset内部保存数字都是按位存的,如果调试的时候是把bitset的内部数据给我看,我也是看不懂的,还好这个包提供了String()方法,可以把我设置的数据已字符串的形式返回,棒棒哒。

实现原理

研究一下实现原理才是我的Style。大概说一下原理。正整数集合可以都放到一个大的整数里面,用位来表示数字。比如1001就可以表示0和2这两个数字。用一个bit代替了一个int,可以大大降低内存的占用。但是一个整数最大也就64位,也就是说最大表示的数字就是64了,所以可以通过多个int拼接的形式来表示大整数。

bitset的内部数据结构,很亲切有木有:

type BitSet struct {
length uint // set的大小
set []uint64 // 这个就会被用来表示一个大整数
}

通过下面的测试代码对于内部实现一探究竟:

var b bitset.BitSet // 定义一个BitSet对象
fmt.Println(b.Bytes()) //  >> []
b.Set()
fmt.Println(b.Bytes(),) // >> [1] 0
b.Set() // 给这个set新增两个值10
fmt.Println(b.Bytes(),,)// >>  [1025] 0 10
b.Set()
fmt.Println(b.Bytes(),,,) // >> [1025 1] 0 10 64
if b.Test() { // 查看set中是否有1000这个值(我觉得Test这个名字起得是真差劲,为啥不叫Exist)
b.Clear() // 情况set
}

输出:

  • 新建的bitset,set是空[]
  • 放入了一个0,用第一位表示,也就是0x00000001
  • 放入了10,内部结构0x00000041
  • 放入了64,这个时候一个整数已经存不下了,内部结构是0x000000410x00000001。set这个数组里面,从前往后表示的数据依次增加,但是在uint64内部,是从低位开始,低位表示小的数。

与其它数据结构的对比

表示正整数的集合,Golang有很多种方式,自带的map就可以,当然这是最差的一种选择,首先就是内存的浪费,其次是每次查找还涉及到hash计算,虽然理论上hashmap的复杂度是O(1),实际上跟bitset比完全就是渣渣。此外,bitset都得升级版roaring也是不错的选择。如果你要保存的数据是10000000000这种级别的,那么用bitset就会存在低位浪费内存的情况,roaring可以用来压缩空间。

import (
"testing" "github.com/RoaringBitmap/roaring"
"github.com/willf/bitset"
) func BenchmarkMap(b *testing.B) {
var B = make(map[int]int8, )
B[] =
B[] =
for i := ; i < b.N; i++ {
if _, exists := B[]; exists { }
if _, exists := B[]; exists { }
if _, exists := B[]; exists { }
}
} func BenchmarkBitset(b *testing.B) {
var B bitset.BitSet
B.Set().Set()
for i := ; i < b.N; i++ {
if B.Test() { }
if B.Test() { }
if B.Test() { }
}
} func BenchmarkRoaring(b *testing.B) {
for i := ; i < b.N; i++ {
B := roaring.BitmapOf(, )
if B.ContainsInt() { }
if B.ContainsInt() {
}
if B.ContainsInt() { } }
} $ go test -bench=.* -benchmem BenchmarkMap- 28.4 ns/op B/op allocs/op
BenchmarkBitset- 1.86 ns/op B/op allocs/op
BenchmarkRoaring- ns/op B/op allocs/op
结论

如果是比较连续的非负整数,推荐用bitset解决集合的问题。当然具体问题具体分析。

本文所涉及到的完整源码请参考


原文链接:Golang 优化之路——bitset,转载请注明来源!

Golang 优化之路——bitset的更多相关文章

  1. Golang 优化之路-空结构[转]

    写在前面 开发 hashset 常用的套路: map[int]int8 map[int]bool 我们一般只用 map 的键来保存数据,值是没有用的.所以来缓存集合数据会造成内存浪费. 空对象 空对象 ...

  2. 微博MySQL优化之路--dockone微信群分享

    微博MySQL优化之路 数据库是所有架构中不可缺少的一环,一旦数据库出现性能问题,那对整个系统都回来带灾难性的后果.并且数据库一旦出现问题,由于数据库天生有状态(分主从)带数据(一般还不小),所以出问 ...

  3. 新浪微博iOS客户端架构与优化之路

    新浪微博iOS客户端架构与优化之路   随着Facebook.Twitter.微博的崛起,向UGC.PGC.OGC,自媒体提供平台的内 容消费型App逐渐形成了独特的客户端架构模式.与电商和通讯工具类 ...

  4. 阿里巴巴 web前端性能优化进阶路

    Web前端性能优化WPO,相信大多数前端同学都不会陌生,在各自所负责的站点页面中,也都会或多或少的有过一定的技术实践.可以说,这个领域并不缺乏成熟技术理论和技术牛人:例如Yahoo的web站点性能优化 ...

  5. 专访阿里巴巴研究员“赵海平”:Facebook的PHP底层性能优化之路(HipHop,HHVM)

    专访阿里巴巴研究员“赵海平”:Facebook的PHP底层性能优化之路 http://www.infoq.com/cn/articles/interview-alibaba-zhaohaiping

  6. CSS代码重构与优化之路(转)

    CSS代码重构与优化之路   阅读目录 CSS代码重构的目的 CSS代码重构的基本方法 CSS方法论 我自己总结的方法 写CSS的同学们往往会体会到,随着项目规模的增加,项目中的CSS代码也会越来越多 ...

  7. Go怎么获取当前时间? Go ARM64 vDSO优化之路

    https://mzh.io/ Go ARM64 vDSO优化之路 2018-03-16  | Meng Zhuo 背景 Go怎么获取当前时间?问一个会Go的程序员,他随手就能写这个出来给你. imp ...

  8. Greenplum 性能优化之路 --(二)存储格式

    一.存储格式介绍 Greenplum(以下简称 GP)有2种存储格式,Heap 表和 AO 表(AORO 表,AOCO 表). Heap 表:这种存储格式是从 PostgreSQL 继承而来的,目前是 ...

  9. H5动画优化之路

    H5动画60fps之路 在移动端,和Native相比,H5一直都被人吐槽性能差,尤其是在动画方面. 谈到整个Web app的生命周期,一般分为四个部分: 加载 等待用户 响应用户 动画 一般情况下,首 ...

随机推荐

  1. JAVA方法调用中的解析与分派

    JAVA方法调用中的解析与分派 本文算是<深入理解JVM>的读书笔记,参考书中的相关代码示例,从字节码指令角度看看解析与分派的区别. 方法调用,其实就是要回答一个问题:JVM在执行一个方法 ...

  2. vs不自动退出控制台程序的办法

    1.在主函数rerurn 前加上getchar();即可. 2.ctrl+F5;

  3. Docker(二)搭建和使用Docker

    摘自 https://mp.weixin.qq.com/s/E9tqhe00EjfV8y1pqWkZfw 一.Docker的架构 Docker使用C/S结构,即客户端/服务器体系结构.Docker客户 ...

  4. Debian Security Advisory(Debian安全报告) DSA-4414-1 libapache2-mod-auth-mellon security update

    Debian Security Advisory(Debian安全报告) DSA-4414-1 libapache2-mod-auth-mellon security update Package:l ...

  5. CCSprite使用记录

    CCSprite使用需要CCTexture2D,就是需要纹理.可以设置绘制纹理的区域. CCSprite 有 draw方法 ,由CCDirector/mainLoop()调用(当前使用的场景为根,向下 ...

  6. Python使用的技巧

    1. 给你一个字符串 a, 请你输出逆序之后的a. 例如:a=‘xydz’ 则输出:zdyx a=a[::-1] print(a) 扩展:Python切片操作. 2. 给你两个正整数a和b, 输出它们 ...

  7. MacOS英文版Google浏览器添加印象笔记剪藏插件

    1 切换到国内的Google应用商店安装 https://chrome.google.com/webstore/detail/evernote-web-clipper/pioclpoplcdbaefi ...

  8. byte数组和int之间相互转化的方法

    Java中byte数组和int类型的转换,在网络编程中这个算法是最基本的算法,我们都知道,在socket传输中,发送者接收的数据都是byte数组,但是int类型是4个byte组成的,如何把一个整形in ...

  9. mysql库文件操作:

    增 :  create database db1 charset utf8; 查询:  当前创建的库  show create database db1; 所有:  show databases; 改 ...

  10. DOM操作插入新的子节点

    appendChid.insertBefore首先这两个方法都是添加子节点. append(追加),appendChid:给父节点的子节点末尾添加子节点. insertBefore(newNode, ...