Redis中的Scan命令踩坑记

1

原本以为自己对redis命令还蛮熟悉的，各种数据模型各种基于redis的骚操作。但是最近在使用redis的scan的命令式却踩了一个坑，顿时发觉自己原来对redis的游标理解的很有限。所以记录下这个踩坑的过程，背景如下：

公司因为redis服务器内存吃紧，需要删除一些无用的没有设置过期时间的key。大概有500多w的key。虽然key的数目听起来挺吓人。但是自己玩redis也有年头了，这种事还不是手到擒来？

当时想了下，具体方案是通过lua脚本来过滤出500w的key。然后进行删除动作。lua脚本在redis server上执行，执行速度快，执行一批只需要和redis server建立一次连接。筛选出来key，然后一次删1w。然后通过shell脚本循环个500次就能删完所有的。以前通过lua脚本做过类似批量更新的操作，3w一次也是秒级的。基本不会造成redis的阻塞。这样算起来，10分钟就能搞定500w的key。

然后，我就开始直接写lua脚本。首先是筛选。

用过redis的人，肯定知道redis是单线程作业的，肯定不能用keys命令来筛选，因为keys命令会一次性进行全盘搜索，会造成redis的阻塞，从而会影响正常业务的命令执行。

500w数据量的key，只能增量迭代来进行。redis提供了scan命令，就是用于增量迭代的。这个命令可以每次返回少量的元素，所以这个命令十分适合用来处理大的数据集的迭代，可以用于生产环境。

scan命令会返回一个数组，第一项为游标的位置，第二项是key的列表。如果游标到达了末尾，第一项会返回0。

2

所以我写的第一版的lua脚本如下：

local c = 0

local resp = redis.call('SCAN',c,'MATCH','authToken*','COUNT',10000)

c = tonumber(resp[1])

local dataList = resp[2]

for i=1,#dataList do

    local d = dataList[i]

    local ttl = redis.call('TTL',d)

    if ttl == -1 then

        redis.call('DEL',d)

    end

end

if c==0 then

  return 'all finished'

else

  return 'end'

end

在本地的测试redis环境中，通过执行以下命令mock了20w的测试数据：

eval "for i = 1, 200000 do redis.call('SET','authToken_' .. i,i) end" 0

然后执行script load命令上传lua脚本得到SHA值，然后执行evalsha去执行得到的SHA值来运行。具体过程如下：

我每删1w数据，执行下dbsize（因为这是我本地的redis，里面只有mock的数据，dbsize也就等同于这个前缀key的数量了）。

奇怪的是，前面几行都是正常的。但是到了第三次的时候，dbsize变成了16999，多删了1个，我也没太在意，但是最后在dbsize还剩下124204个的时候，数量就不动了。之后无论再执行多少遍，数量还依旧是124204个。

随即我直接运行scan命令:

发现游标虽然没有到达末尾，但是key的列表却是空的。

这个结果让我懵逼了一段时间。我仔细检查了lua脚本，没有问题啊。难道是redis的scan命令有bug？难道我理解的有问题？

我再去翻看redis的命令文档对count选项的解释：

经过详细研读，发现count选项所指定的返回数量还不是一定的，虽然知道可能是count的问题，但无奈文档的解释实在难以很通俗的理解，依旧不知道具体问题在哪

3

后来经过某个小伙伴的提示，看到了另外一篇对于scan命令count选项通俗的解释：

看完之后恍然大悟。原来count选项后面跟的数字并不是意味着每次返回的元素数量，而是scan命令每次遍历字典槽的数量

我scan执行的时候每一次都是从游标0的位置开始遍历，而并不是每一个字典槽里都存放着我所需要筛选的数据，这就造成了我最后的一个现象：虽然我count后面跟的是10000，但是实际redis从开头往下遍历了10000个字典槽后，发现没有数据槽存放着我所需要的数据。所以我最后的dbsize数量永远停留在了124204个。

所以在使用scan命令的时候，如果需要迭代的遍历，需要每次调用都需要使用上一次这个调用返回的游标作为该次调用的游标参数，以此来延续之前的迭代过程。

至此，心中的疑惑就此解开，改了一版lua：

local c = tonumber(ARGV[1])

local resp = redis.call('SCAN',c,'MATCH','authToken*','COUNT',10000)

c = tonumber(resp[1])

local dataList = resp[2]

for i=1,#dataList do

    local d = dataList[i]

    local ttl = redis.call('TTL',d)

    if ttl == -1 then

        redis.call('DEL',d)

    end

end

return c

在本地上传后执行：

可以看到，scan命令没法完全保证每次筛选的数量完全等同于给定的count，但是整个迭代却很好的延续下去了。最后也得到了游标返回0，也就是到了末尾。至此，测试数据20w被全部删完。

这段lua只要在套上shell进行循环就可以直接在生产上跑了。经过估算大概在12分钟左右能删除掉500w的数据。

知其然，知其所以然。虽然scan命令以前也曾玩过。但是的确不知道其中的细节。况且文档的翻译也不是那么的准确，以至于自己在面对错误的结果时整整浪费了近1个多小时的时间。记录下来，加深理解。

4.联系作者

微信关注「jishuyuanren」或者扫描以下二维码获取更多干货

Redis中的Scan命令踩坑记的更多相关文章

Redis中的Scan命令的使用
Redis中有一个经典的问题,在巨大的数据量的情况下,做类似于查找符合某种规则的Key的信息,这里就有两种方式,一是keys命令,简单粗暴,由于Redis单线程这一特性,keys命令是以阻塞的方式执行 ...
react中的路由配置踩坑记
react 路由配置中,如果根路由(/)匹配一个组件,另一个路由(/list)在进行匹配的时候也会匹配到根路由(/),即在 /list 页面展示的时候 / 页面总是展示在上方. 此时如果想进行严格匹配 ...
Spark踩坑记——从RDD看集群调度
[TOC] 前言在Spark的使用中,性能的调优配置过程中,查阅了很多资料,之前自己总结过两篇小博文Spark踩坑记--初试和Spark踩坑记--数据库(Hbase+Mysql),第一篇概况的归纳了 ...
EOS踩坑记
[EOS踩坑记] 1.每个account只能更新自己的contract,即使两个account的秘钥相同,也不允许. 如下,使用alice的权限来更新james的contract.会返回 Missin ...
windows container 踩坑记
windows container 踩坑记 Intro 我们有一些服务是 dotnet framework 的,不能直接跑在 docker linux container 下面,最近一直在折腾把它部署 ...
centos 7( linux )下搭建elasticsearch踩坑记
原文:https://blog.csdn.net/an88411980/article/details/83150380 概述公司最近在做全文检索的项目,发现elasticsearch踩了不少 ...
Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
Spark踩坑记——数据库（Hbase+Mysql）
[TOC] 前言在使用Spark Streaming的过程中对于计算产生结果的进行持久化时,我们往往需要操作数据库,去统计或者改变一些值.最近一个实时消费者处理任务,在使用spark streami ...
【踩坑记】从HybridApp到ReactNative
前言随着移动互联网的兴起,Webapp开始大行其道.大概在15年下半年的时候我接触到了HybridApp.因为当时还没毕业嘛,所以并不清楚自己未来的方向,所以就投入了HybridApp的怀抱. Hy ...

随机推荐

Typescript的interface、class和abstract class
interface,class,和abstract class这3个概念,既有联系,又有区别,本文尝试着结合官方文档来阐述这三者之间的关系. 1. Declaration Merging Declar ...
容器中的Java堆大小调整：快速，轻松
在上一篇博客中,我们已经看到Java进行了改进,可以根据正在运行的环境(即物理机或容器(码头工人))识别内存.java的最初问题是,它无法弄清楚它是否在容器中运行,并且它曾经为容器运行所在的整个硬件捕 ...
Java-CORBA
本文HelloCorba参考 Getting Started with JavaTM IDL 说在前面 Java TM IDL is a technology for distributed obje ...
Linux下安装MongoDB 4.2数据库--使用tar包方式
(一)基础环境设置操作系统版本 :centos-7.4 MongoDB版本:MongoDB 4.2 社区版 (1)关闭防火墙 # 关闭防火墙 [root@mongodbenterprise lib ...
Java 中的数据结构类 Vector 和 ArrayList
今天刷算法题目时,使用到了 Java 的内置栈类 Stack,好奇它是怎么实现的,发现它是继承于 Vector 这个类.那么,就先学习下 Vector 这个类的实现吧! Vector 和 ArrayL ...
Git【入门】这一篇就够了
前言欢迎关注公众号,白嫖原创PDF,也可以催更,微信搜:JavaPub,回复:[666] Git 在生产工作中是使用频率很高的工具,但我发现很多文章只是对它做了简单的提交命令说明,真正遇到版本冲突 ...
express高效入门教程（3）
3.路由路由到底是什么呢?不管官方定义到底是什么,咱通俗的说就是根据不同的url,执行不同的代码,类似于编程语言中的分支结构 3.1.express规划路由稍微复杂点的应用,通常都是分模块进行的, ...
为什么Spring Security看不见登录失败或者注销的提示
有很多人在利用Spring Security进行角色权限设计开发时,一般发现正常登录时没问题,但是注销.或者用户名时,直接就回到登录页面了,在登录页面上看不见任何提示信息,如“用户名/密码有误”或“注 ...
腾讯T8纯手写66个微服务架构设计模式，全部学会真的“变强”了
微服务的概念虽然直观易懂,但“细节是魔鬼”,微服务在实操落地的环节中存在诸多挑战.我们在为企业提供PaaS.人工智能.云原生平台等数字化转型解决方案时也发现,企业实现云原生,并充分利用PaaS能力的第 ...
阿里云Linux CentOS8.1 64位服务器安装LNMP(Linux+Nginx+MySQL+PHP) 并发调试之MySQL配置
mysql高并发配置要在mysqld下设置 1. 修改back_log参数值:由默认的50修改为500.(每个连接256kb,占用:125M) back_log=500 back_log值指出MyS ...

Redis中的Scan命令踩坑记

1

2

3

4.联系作者

Redis中的Scan命令踩坑记的更多相关文章

随机推荐

热门专题