Redisson实战-BloomFilter

1. 简介

布隆过滤器是防止缓存穿透的方案之一。布隆过滤器主要是解决大规模数据下不需要精确过滤的业务场景，如检查垃圾邮件地址，爬虫URL地址去重，解决缓存穿透问题等。

布隆过滤器：在一个存在一定数量的集合中过滤一个对应的元素，判断该元素是否一定不在集合中或者可能在集合中。它的优点是空间效率和查询时间都比一般的算法要好的多，缺点是有一定的误识别率和删除困难。

想详细了解的，可以查看我的另一篇博客Redis-缓存穿透/击穿/雪崩。

2. guava 实现

google的guava工具类已经帮我们造好了轮子，通过实例来感受一下。

2.1 导入依赖

<dependency>

   <groupId>com.google.guava</groupId>

   <artifactId>guava</artifactId>

   <version>30.1.1-jre</version>

</dependency>

2.2 BloomFilterTest

import com.google.common.hash.BloomFilter;

import com.google.common.hash.Funnels;

import lombok.extern.slf4j.Slf4j;

/**

 * 布隆过滤器简单实现

 * @author ludangxin

 * @date 2021/8/16

 */

@Slf4j

public class BloomFilterTest {

   /**

    * 预计要插入元素个数

    */

   private static final int SIZE = 1000000;

   /**

    * 误判率

    */

   private static final double FPP = 0.01;

   /**

    * 布隆过滤器

    */

   private static final BloomFilter<Integer> BLOOMFILTER = BloomFilter.create(Funnels.integerFunnel(), SIZE, FPP);

   public static void main(String[] args) {

      //插入数据

      for (int i = 0; i < 1000000; i++) {

         BLOOMFILTER.put(i);

      }

      int count = 0;

      // 过滤判断

      for (int i = 1000000; i < 3000000; i++) {

         if (BLOOMFILTER.mightContain(i)) {

            count++;

            log.info(i + "误判了");

         }

      }

      log.info("总共的误判数:" + count);

   }

}

2.3 启动测试

如上代码，我们设置了0.01的误差，过滤判断时从1000000到3000000，误判了2 * 20000000 ≈ 20339 符合预期。

.....

21:40:21.529 [main] INFO com.ldx.redisson.controller.BloomFilterTest - 2999004误判了

21:40:21.529 [main] INFO com.ldx.redisson.controller.BloomFilterTest - 2999045误判了

21:40:21.529 [main] INFO com.ldx.redisson.controller.BloomFilterTest - 2999219误判了

21:40:21.529 [main] INFO com.ldx.redisson.controller.BloomFilterTest - 2999699误判了

21:40:21.529 [main] INFO com.ldx.redisson.controller.BloomFilterTest - 2999753误判了

21:40:21.529 [main] INFO com.ldx.redisson.controller.BloomFilterTest - 2999838误判了

21:40:21.529 [main] INFO com.ldx.redisson.controller.BloomFilterTest - 2999923误判了

21:40:21.529 [main] INFO com.ldx.redisson.controller.BloomFilterTest - 2999928误判了

21:40:21.529 [main] INFO com.ldx.redisson.controller.BloomFilterTest - 总共的误判数:20339

2.4 小节

guava的工具包虽然好用，但是数据集是存储在jvm中的，分布式环境下依然没法使用。

3. redisson 实现

3.1 导入依赖

<dependency>

   <groupId>org.redisson</groupId>

   <artifactId>redisson-spring-boot-starter</artifactId>

   <version>3.16.1</version>

</dependency>

3.2 BloomFilterWithRedisson

import lombok.RequiredArgsConstructor;

import lombok.extern.slf4j.Slf4j;

import org.redisson.api.RBloomFilter;

import org.redisson.api.RedissonClient;

import org.springframework.web.bind.annotation.GetMapping;

import org.springframework.web.bind.annotation.RequestMapping;

import org.springframework.web.bind.annotation.RestController;

/**

 * redisson 布隆过滤器实现

 *

 * @author ludangxin

 * @date 2021/8/16

 */

@Slf4j

@RestController

@RequestMapping("bloomFilter")

@RequiredArgsConstructor

public class BloomFilterWithRedisson {

   private final RedissonClient redissonClient;

   /**

    * 预计要插入元素个数

    */

   private static final long SIZE = 1000000L;

   /**

    * 误判率

    */

    private static final double FPP = 0.01;

   /**

    * 自定义布隆过滤器的 key

    */

   private static final String BLOOM_FILTER_KEY = "bloomFilter";

   /**

    * 向布隆过滤器中添加数据, 模拟向布隆过滤器中添加10亿个数据

    */

   @GetMapping

   public void filter() {

     // 获取布隆过滤器

      RBloomFilter<Integer> bloomFilter = redissonClient.getBloomFilter(BLOOM_FILTER_KEY);

      // 初始化，容量为100万， 误判率为0.01

      bloomFilter.tryInit(SIZE, FPP);

      // 模拟向布隆过滤器中添加100万个数据

      for (int i = 0; i < SIZE; i++) {

          bloomFilter.add(i);

      }

      int count = 0;

      // 过滤判断

      for (int i = 1000000; i < 3000000; i++) {

         if (bloomFilter.contains(i)) {

            count++;

            log.info(i + "误判了");

         }

      }

      log.info("size:" + bloomFilter.getSize());

      log.info("总共的误判数:" + count);

   }

}

3.3 启动测试

由于机器性能有限，又是单机环境，所以程序没有跑完。

但由此也可以看出，基于redis的布隆过滤器虽然解决了分布式问题，但是性能和guava bloomfilter没法比。

Redisson实战-BloomFilter的更多相关文章

别再用 Redis List 实现消息队列了，Stream 专为队列而生
上回说到使用 Redis 的 List 实现消息队列有很多局限性,比如: 没有良好的 ACK 机制: 没有 ConsumerGroup 消费组概念: 消息堆积. List 是线性结构,想要查询指定数据 ...
Redis HyperLogLog 是什么？这些场景使用它，让我枪出如龙，一笑破苍穹
在移动互联网的业务场景中,数据量很大,我们需要保存这样的信息:一个 key 关联了一个数据集合,同时对这个数据集合做统计. 比如: 统计一个 APP 的日活.月活数: 统计一个页面的每天被多少个不同账 ...
Redisson 分布式锁实战与 watch dog 机制解读
Redisson 分布式锁实战与 watch dog 机制解读目录 Redisson 分布式锁实战与 watch dog 机制解读背景普通的 Redis 分布式锁的缺陷 Redisson 提供的 ...
Redis实战篇
Redis实战篇 1 Redis 客户端 1.1 客户端通信原理客户端和服务器通过 TCP 连接来进行数据交互, 服务器默认的端口号为 6379 . 客户端和服务器发送的命令或数据一律以 \r\n ...
redis(7)--redis应用实战
问题1:哨兵模式下客户端应该连接哪个redis-server? 问题2:集群模式下为什么会有MOVED error Redis Java客户端介绍已有的客户端支持 Redis Java客户端有很多的 ...
硬核 | Redis 布隆（Bloom Filter）过滤器原理与实战
在Redis 缓存击穿(失效).缓存穿透.缓存雪崩怎么解决?中我们说到可以使用布隆过滤器避免「缓存穿透」. 码哥,布隆过滤器还能在哪些场景使用呀? 比如我们使用「码哥跳动」开发的「明日头条」APP 看 ...
(转)国内外三个不同领域巨头分享的Redis实战经验及使用场景
随着应用对高性能需求的增加,NoSQL逐渐在各大名企的系统架构中生根发芽.这里我们将为大家分享社交巨头新浪微博.传媒巨头Viacom及图片分享领域佼佼者Pinterest带来的Redis实践,首先我们 ...
【原】实战-Java如何使用Redis
实战-Java如何使用Redis Redis的Client支持的语言非常丰富,如下: ActionScript Bash C C# C++ Clojure Common Lisp Crystal D ...
Hbase 设计与开发实战
Hbase 概述大数据及 NoSQL 的前世今生传统的关系型数据库处理方式是基于全面的 ACID 保证,遵循 SQL92 的标准表设计模式(范式)和数据类型,基于 SQL 语言的 DML 数据交互 ...

随机推荐

robotframework安装robotframework-requests库遇到的几种问题
robotframework-requests库依赖于requests库,所以如果安装robotframework-requests库后,在RF中的RequestsLibrary不能使用或者使用pyt ...
Leetcode No.88 Merge Sorted Array(c++实现）
1. 题目 1.1 英文题目 You are given two integer arrays nums1 and nums2, sorted in non-decreasing order, and ...
python使用笔记29--代码驱动
1 import unittest 2 import requests 3 import jsonpath 4 import time 5 import nnreport 6 7 def get_va ...
C语言：地址
一切都是地址 C语言用变量来存储数据,用函数来定义一段可以重复使用的代码,它们最终都要放到内存中才能供 CPU 使用.数据和代码都以二进制的形式存储在内存中,计算机无法从格式上区分某块内存到底存储的是 ...
Java集合Stream类filter的使用
之前的Java集合中removeIf的使用一文写了使用removeIf来实现按条件对集合进行过滤.这篇文章使用同样是JDK1.8新加入的Stream中filter方法来实现同样的效果.并且在实际项目中 ...
NDT匹配: The Normal Distributions Transform: A New Approach to Laser Scan
介绍大多数激光匹配算法都是基于点或者线的特征匹配,该论文提出一种2D激光扫描匹配算法,方法类似于占据栅格,将2D平面分为一个个cell,对于每个cell,设定其一个正态分布,表示该网格测量到每个点的 ...
CRUD搬砖两三年了，怎么阅读Spring源码？
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! ‍连读同事写的代码都费劲,还读Spring? 咋的,Spring 很难读! 这个与我们码农朝夕 ...
JS文件延迟和异步加载：defer和async属性
-般情况下,在文档的 <head> 标签中包含 JavaScript 脚本,或者导入的 JavaScript 文件.这意味着必须等到全部 JavaScript 代码都被加载.解析和执行完以 ...
第1天 Mark Down 学习及DOS命令
Markdown学习标题 "#加空格"几个#就表示几级标题字体 helloworld!一两个两个*号 helloworld!一边一个*号 helloworld! 一边三个号 h ...
离线安装rpm包并解决依赖(升级vsftpd为例)
背景实际开发中,我们的linux服务器是处理离线状态的,并不能访问互联网.如果此时要在linux上安装或者升级软件,就只能通过rpm包的安装方式.rpm包安装有一个缺陷,就是不能处理安装包的依赖问 ...