HyperLogLog算法】的更多相关文章

项目在统计UV/PV时用到了Druid的Hyper hyperunique算法,书上介绍这种算法求出的UV/PV存在一定误差,因此需要了解下误差来自哪里. 实现去重功能,最简单的就是使用set记录集合本身,缺点与前面Bloom Filter差不多,显而易见,需要大量内存空间.HyperLogLog为解决这个问题而生. 另外redis也实现了HyperLogLog的结构,所以可以从redis源码上分析下其实现. 1.基数计数 基数是指一个集合中不同元素的个数.假设有一组数据{1, 2, 3, 3,…
作者:林冠宏 / 指尖下的幽灵 掘金:https://juejin.im/user/587f0dfe128fe100570ce2d8 博客:http://www.cnblogs.com/linguanh/ GitHub : https://github.com/af913337456/ 腾讯云专栏: https://cloud.tencent.com/developer/user/1148436/activities 虫洞区块链专栏:https://www.chongdongshequ.com/…
1.bitmap位图 1.1 bitmap位图的概念 首先来看一个例子,字符串big, 字母b的ASCII码为98,转换成二进制为 01100010 字母i的ASCII码为105,转换成二进制为 01101001 字母g的ASCII码为103,转换成二进制为 01100111 如果在Redis中,设置一个key,其值为big,此时可以get到big这个值,也可以获取到 big的ASCII码每一个位对应的值,也就是0或1 例如: 127.0.0.1:6379> set hello big OK 1…
首先,HyperLogLog与布隆过滤器都是针对大数据统计存储应用场景下的知名算法. HyperLogLog是在大数据的情况下关于数据基数的空间复杂度优化实现,布隆过滤器是在大数据情况下关于检索一个元素是否在一个集合中的空间复杂度优化后的实现. 在传统的数据量比较低的应用服务中,我们要实现数据基数和数据是否存在分析的功能,通常是简单的把所有数据存储下来,直接count一下就是基数了,而直接检索一个元素是否在一个集合中也很简单. 但随着数据量的急剧增大,传统的方式已经很难达到工程上的需求.过大的数…
所谓的基数计数就是统计一组元素中不重复的元素的个数.如统计某个网站的UV,或者用户搜索网站的关键词数量:再如对一个网站分别统计了三天的UV,现在需要知道这三天的UV总量是多少,怎么融合多个统计值. 1.方法 (假设元素个数为m,去重后个数为n) 1.集合操作去重 时间复杂为O(m2),空间复杂度随元素个数线性增长.数据量一大就崩了. 2.B+树 将数据插入到B+树中达到去重目的,然后顺序访问叶节点链从而得到n值.时间复杂的为O( lgm + n ),内存亦随元素个数线性增长.数据量一大就崩了.…
数据量一大,连统计基数也成了一个麻烦事.在使用kylin的时候,遇到对度量值进行基数统计,使用的是Hyperloglog算法,占用内存小,误差小,实乃不错的方法,但查阅网上的资料与内容,感觉未能理解的太明白.经过一番折腾,自己给整理出一个版本出来. 算法的论文是<HyperLogLog the analysis of a near-optimal cardinality estimation algorithm>,可以在谷歌学术上下载下来看看.具体论文的理论推导不详细介绍,简述下其思想核心.…
HyperLogLog 可以接受多个元素的输入,返回输入元素的基数估算值基数,集合中不同元素的数量.如集合{1,2,3,1,2,3,4}的基数是4.估算,HyperLogLog算法返回的基数不是完全精确的,但会控制在合理的范围内.HyperLogLog不会存储输入的多个元素,只返回估算的基数 127.0.0.1:6379> pfadd yy a b c a b c e (integer) 1127.0.0.1:6379> pfcount yy(integer) 4127.0.0.1:6379&…
(1)HyperLogLog简介 在Redis 在 2.8.9 版本才添加了 HyperLogLog,HyperLogLog算法是用于基数统计的算法,每个 HyperLogLog 键只需要花费 12 KB 内存,就可以计算接近 2^64 个不同元素的基数.HyperLogLog适用于大数据量的统计,因为成本相对来说是更低的,最多也就占用12kb内存 业务场景,HyperLogLog常用于大数据量的统计,比如页面访问量统计或者用户访问量统计 举个例子,假如要统计一个页面的访问量(PV),这个还比较…
HyperLogLog 算法的原理讲解以及 Redis 是如何应用它的 探索HyperLogLog算法(含Java实现) 神奇的HyperLogLog算法 Sketch of the Day: HyperLogLog — Cornerstone of a Big Data Infrastructure HyperLogLog - Wikipedia 走近源码:神奇的HyperLogLog redis/src/hyperloglog.c…
1.bitmap位图 1.1 bitmap位图的概念 首先来看一个例子,字符串big, 字母b的ASCII码为98,转换成二进制为 01100010 字母i的ASCII码为105,转换成二进制为 01101001 字母g的ASCII码为103,转换成二进制为 01100111 如果在Redis中,设置一个key,其值为big,此时可以get到big这个值,也可以获取到 big的ASCII码每一个位对应的值,也就是0或1 例如: 127.0.0.1:6379> set hello big OK 1…
HyperLogLog 什么是 HyperLogLog HyperLogLog 是基于 HyperLogLog 算法的一种数据结构,该算法可以在极小空间完成独立数量统计. 在本质上还是字符串类型. 重要 API 命令 含义 pfadd key element1 [element2...] 向HyperLogLog中添加元素 pfcount key1 [key2...] 计算HyperLogLog的独立总数 pfmerge destKey key1 [key2...] 合并多个hyperLogLo…
一.HyperLogLog 简介 HyperLogLog 是最早由 Flajolet 及其同事在 2007 年提出的一种 估算基数的近似最优算法.但跟原版论文不同的是,好像很多书包括 Redis 作者都把它称为一种 新的数据结构(new datastruct) (算法实现确实需要一种特定的数据结构来实现). 关于基数统计 基数统计(Cardinality Counting) 通常是用来统计一个集合中不重复的元素个数. 思考这样的一个场景: 如果你负责开发维护一个大型的网站,有一天老板找产品经理要…
什么是基数估算 HyperLogLog 是一种基数估算算法.所谓基数估算,就是估算在一批数据中,不重复元素的个数有多少. 从数学上来说,基数估计这个问题的详细描述是:对于一个数据流 {x1,x2,...,xs} 而言,它可能存在重复的元素,用 n 来表示这个数据流的不同元素的个数,并且这个集合可以表示为{e1,...,en}.目标是:使用 m 这个量级的存储单位,可以得到 n 的估计值,其中 m<<n .并且估计值和实际值 n 的误差是可以控制的. 对于上面这个问题,如果是想得到精确的基数,可…
如果现在要开发一个功能: 统计APP或网页的一个页面,每天有多少用户点击进入的次数.同一个用户的反复点击进入记为 1 次,也就是统计 UV 数据. 让你来开发这个统计模块,你会如何实现? 如果统计 PV 数据,只要给网页一个独立的 Redis 计数器就可以了,这个计数器的 key 的格式为 puv:{pid}:{yyyyMMdd}.每来一个请求就 incrby 一次,就可以统计出所有的 PV 数据. 但是 UV 不一样,它要去重,同一个用户一天之内的多次访问请求只能计数一次.这就要求每一个网页请…
本篇介绍Bitmaps和HyperLogLog. 一.Bitmaps 计算机中最小的单位是bit(位),很多计算机语言也提供了位操作符,比如Java中就有&.|.>>.>>>.<<.~.^ .1bit可以存储0和1两种值.介绍几个Redis的Bitmaps相关的操作 bitop 完整的命令参数是bitop operation destkey key [key...] 其中operation是位操作类型,支持and.or.not.xor,分别就是与.或.非.…
"为什么这个功能用不了?" 程序员:"清一下缓存" 上篇洞悉系列文章给大家详细介绍了MySQL的存储内幕:洞悉MySQL底层架构:游走在缓冲与磁盘之间.既然聊过了磁盘存储,我们今天就进一步来聊聊内存存储. 大多数并发量稍微高点的项目中都不会让请求直达MySQL这类的关系型数据库,而是中间加一道或者几道缓存,就如同操作系统中的CPU的多级缓存,以及主存那样,通过更快速的硬件去提高数据读取的效率,进而加快系统的处理速度,避免让IO成为系统的瓶颈. 而Redis作为一个成…
Redis系列1:深刻理解高性能Redis的本质 Redis系列2:数据持久化提高可用性 Redis系列3:高可用之主从架构 Redis系列4:高可用之Sentinel(哨兵模式) Redis系列5:深入分析Cluster 集群模式 追求性能极致:Redis6.0的多线程模型 追求性能极致:客户端缓存带来的革命 Redis系列8:Bitmap实现亿万级数据计算 Redis系列9:Geo 类型赋能亿级地图位置计算 1 前言 我们来回顾下在这个系列的第一篇 深刻理解高性能Redis的本质 中介绍过R…
在数据库中,常常会有Distinct Count的操作,比如,查看每一选修课程的人数: select course, count(distinct sid) from stu_table group by course; Hive 在大数据场景下,报表很重要一项是UV(Unique Visitor)统计,即某时间段内用户人数.例如,查看一周内app的用户分布情况,Hive中写HiveQL实现: select app, count(distinct uid) as uv from log_tabl…
http://blog.csdn.net/yu616568/article/details/50365240 前言   在使用Kylin的时候,最重要的一步就是创建cube的模型定义,即指定度量和维度以及一些附加信息,然后对cube进行build,当然我们也可以根据原始表中的某一个string字段(这个字段的格式必须是日期格式,表示日期的含义)设定分区字段,这样一个cube就可以进行多次build,每一次的build会生成一个segment,每一个segment对应着一个时间区间的cube,这些…
1. Redis介绍 Redis是一个开源的使用ANSI C语言编写.基于内存的Key-Value数据库. 它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sorted set --有序集合)和hash(哈希类型). Redis支持主从同步,数据可以从主服务器向任意数量的从服务器上同步,由于完全实现了发布/订阅机制,使得从数据库在任何地方同步树时,可订阅一个频道并接收主服务器完整的消息发布记录. 相比memcached,Rdeis有以下…
现代高并发复杂系统面临的挑战 现代系统随着功能的复杂化,各种各样需求层出不穷,面对愈加复杂话的业务系统.越来越庞大的用户群体,以及用户对体验的要求越来越高,性能就变得更加重要. 抛开代码逻辑.服务器性能的相关问题外,提高性能的方式有以下几种: 动静分离 负载均衡 分布式 集群化 缓存 限流处理 数据压缩 其他 我们来分析一下负载均衡.分布式.集群化涉及的问题: 配置管理变得复杂,因此需要设置配置中心来解决该问题. 同一个用户的请求会转发至不同的 Web 服务器,从而导致 Session 丢失等问…
1.1 导言 如果你从来没使用过 Redis 数据库,那你肯定会问,为什么我们要学 Redis数据库,我只使用 MySQL 或 Oracle 就够了.其实 Redis 虽叫数据库,可又不是传统意义上的关系型数据库,Redis 是一个高性能的 Key-Value 数据库. 首先我们先来讲一下 Redis 的历史.Redis 其实是作者 Salvatore Sanfilippo 为了解决实际问题而创造出来的.当时作者 Salvatore 有这么一个需求,就是多个网站不断向服务器发送页面,而服务器需要…
引言 说起redis的数据结构,大家可能对五大基础数据类型比较熟悉:String,Hash,List,Set,Sorted Set.那么除此之外,还有三大衍生数据结构,大家平时是很少接触的,即:bitmaps.hyperloglog.geo 另外,我觉得,这三个数据结构,只能说是锦上添花.真正在项目中,我还真没用过. 下面大家来看看这三大数据结构的定义和用途 bitmaps 定义 说到这个bitmaps,其实它就是String,但它可以对String的位进行操作.然后呢,这个位操作,有自己的命令…
本文主要介绍有赞数据团队为了满足在不同维度查看.分析重点指标的需求而搭建的OLAP分析工具.这个工具对Kylin.Mondrian以及Saiku做了一个整合,主要工作包括一些定制化的修改以及环境的配置. 目前这个系统还处于一个需要优化.完善的过程,这篇博文也会相应地更新. 背景 在有赞发展的初期,数据团队主要的工作之一就是根据运营人员的报表需求,编写sql,从hive中获得数据并写入mysql中存储.最后,前端人员写相应的代码展现mysql中存储的报表数据. 随着公司业务的快速发展,如此长周期的…
OLAP(联机分析处理)是数据仓库的主要应用之一,通过设计维度.度量,我们可以构建星型模型或雪花模型,生成数据多维立方体Cube,基于Cube可以做钻取.切片.旋转等多维分析操作.早在十年前,SQL Server.Oracle 等数据库软件就有OLAP产品,为用户提供关系数据库.多维数据集.可视化报表的整套商业智能方案. (本科毕业设计就是做OLAP分析,对相关理论和实践有兴趣的可以参阅我的论文,链接:https://share.weiyun.com/d6b7a9b521927d93c004ef…
1. Redis介绍 Redis是一个开源的使用ANSI C语言编写.基于内存的Key-Value数据库. 它支持存储的value类型相对更多,包括string(字符串).list(链表).set(集合).zset(sorted set --有序集合)和hash(哈希类型). Redis支持主从同步,数据可以从主服务器向任意数量的从服务器上同步,由于完全实现了发布/订阅机制,使得从数据库在任何地方同步树时,可订阅一个频道并接收主服务器完整的消息发布记录. 相比memcached,Rdeis有以下…
前言 下面通过对kylin构建cube流程的分析来介绍cube优化思路. 创建hive中间表 kylin会在cube构建的第一步先构建一张hive的中间表,该表关联了所有的事实表和维度表,也就是一张宽表. 优化点: 1. hive表分区优化,在构建宽表的时候,kylin需要遍历hive表,事实表和维度表如果是分区表,那么会减少遍历时间 2. hive相关配置调整,join相关配置,mapreduce相关配置等 创建完成后,为了防止文件大小不一致的情况,kylin又基于hive做了一次重均衡操作,…
版权申明:转载请注明出处. 文章来源:http://bigdataer.net/?p=306 排版乱?请移步原文获得更好的阅读体验 1.什么是cube? cube是所有dimession的组合,每一种dimession的组合称之为cuboid.某一有n个dimession的cube会有2n个cuboid,如图: 对应一张hive表,有time,item,location,supplier这四个维度,则0-D cuboid时对应的查询语句为 select sum(money) from table…
1. 概述 Druid的数据摄入主要包括两大类: 1. 实时输入摄入:包括Pull,Push两种 - Pull:需要启动一个RealtimeNode节点,通过不同的Firehose摄取不同种类的数据源. - Push:需要启动Tranquility或是Kafka索引服务.通过HTTP调用的方式进行数据摄入 2. 离线数据摄入:可以通过Realtime节点摄入,也可以通过索引节点启动任务摄入 本文演示环节主要基于上一章部署的集群来进行 2. 实时数据摄入 2.1 Pull 由于Realtime N…
Redis5.0支持的新特性说明 本文内容来自华为云帮助中心 华为云DCS的Redis5.x版本继承了4.x版本的所有功能增强以及新的命令,同时还兼容开源Redis5.x版本的新增特性. Stream数据结构 Stream是Redis 5.0引入的一种新数据类型,它是一个全新的支持多播的可持久化消息队列. 点击下方链接,可以了解更多详情. https://www.huaweicloud.com/product/dcs.html Redis Stream的结构示意图如图7-1所示,它是一个可持久化…