什么是基数估算 HyperLogLog 是一种基数估算算法.所谓基数估算,就是估算在一批数据中,不重复元素的个数有多少. 从数学上来说,基数估计这个问题的详细描述是:对于一个数据流 {x1,x2,...,xs} 而言,它可能存在重复的元素,用 n 来表示这个数据流的不同元素的个数,并且这个集合可以表示为{e1,...,en}.目标是:使用 m 这个量级的存储单位,可以得到 n 的估计值,其中 m<<n .并且估计值和实际值 n 的误差是可以控制的. 对于上面这个问题,如果是想得到精确的基数,可…