前言

随着系统的运行,数据量变得越来越大,单纯的将数据存储在mysql中,已然不能满足查询要求了,此时我们引入Redis作为查询的缓存层,将业务中的热数据保存到Redis,扩展传统关系型数据库的服务能力,用户通过应用直接从Redis中快速获取常用数据,或者在交互式应用中使用Redis保存活跃用户的会话,都可以极大地降低后端关系型数据库的负载,提升用户体验。

传统命令的缺点

使用传统的redis client命令在大数据量的导入场景下存在如下缺陷:

由于redis是单线程模型,虽然避免了多线程下线程切换所耗费的时间,单一顺序的执行命令也很快,但是在大批量数据导入的场景下,发送命令所花费的时间和接收服务器响应结果耗费的时间就会被放大。

假如需要导入100万条数据,那光是命令执行时间,就需要花费100万*(t1 + t2)。

除了逐条命令发送,当然redis设计肯定也会考虑这个问题,所以出现了pipelining管道模式。

但是pipelining在命令行中是没有的,使得我们又需要编写新的处理代码,来接收批量的响应。但是只有很少很少的客户端代码支持,比如php-redis的扩展就不支持异步。

pipelining管道模式,其实就是减少了TCP连接的交互时间,当一批命令执行完毕后,一次性发送结果。

其实现原理是采用FIFO(先进先出)的队列来保证数据的顺序性。

只有一小部分客户端支持非阻塞I/O,并不是所有的客户端都能够以一种有效的方式解析应答,以最大化吞吐量。

由于这些原因,将庞大数据导入到Redis的首选方法是生成一个包含Redis协议数据格式,批量的发送过去。

数据导入Redis热身

采用nc命令导入数据

nc是netcat的简写,nc的作用有:

(1)实现任意TCP/UDP端口的侦听,增加-l参数后,nc可以作为server以TCP或UDP方式侦听指定端口

(2)端口的扫描,nc可以作为client发起TCP或UDP连接

(3)机器之间传输文件

(4)机器之间网络测速

采用pipe模式导入数据

然而,使用nc监听并不是一个非常可靠的方式来执行大规模的数据导入,因为netcat并不真正知道何时传输了所有数据,也无法检查错误。在2.6或更高版本的Redis中,Redis -cli脚本支持一种称为pipe管道模式的新模式,这种模式是为了执行大规模插入而设计的。

使用管道模式的命令运行如下:

由上图,可以看到pipe命令的返回结果,txt文件中有多少行命令,返回的replies数就是多少,

errors表示其中执行错误的命令条数。

redis协议学习

协议的格式为:

  1. *<参数数量> \r\n
  2. $<参数 1 的字节数量> \r\n
  3. <参数 1 的数据> \r\n
  4. ...
  5. $<参数 N 的字节数量> \r\n
  6. <参数 N 的数据> \r\n

比如:

插入一条hash类型的数据。

  1. HSET id book1 book_description1

根据Redis协议,总共有4个部分,所以开头为*4,其余内容解释如下:

内容 长度 协议命令
HSET 4 $4
id 2 $2
book1 5 $5
book_description1 17 $17

注意一下:HSET命令本身也作为协议的其中一个参数来发送。

构造出来的协议数据结构:

  1. *4\r\n$4\r\nHSET\r\n$2\r\nid\r\n$5\r\nbook1\r\n$17\r\nbook_description1\r\n
  2. 格式化一下:
  3. *4\r\n
  4. $4\r\n
  5. HSET\r\n
  6. $2\r\n
  7. idvvvv\r\n
  8. $5\r\n
  9. book1\r\n
  10. $17\r\n
  11. book_description1\r\n

RESP协议 bulk

Redis客户机使用一种称为RESP (Redis序列化协议)的协议与Redis服务器通信。

redis-cli pipe模式需要和nc命令一样快,并且解决了nc命令不知道何时命令结束的问题。

在发送数据的同时,它同样会去读取响应,尝试去解析。

一旦输入流中没有读取到更多的数据之后,它就会发送一个特殊的20比特的echo命令,标识最后一个命令已经发送完毕

如果在响应结果中匹配到这个相同数据后,说明本次批量发送是成功的。

使用这个技巧,我们不需要解析发送给服务器的协议来了解我们发送了多少命令,只需要解析应答即可。

在解析应答时,redis会对解析的应答进行一个计数,在最后能够告诉用户大量插入会话向服务器传输的命令的数量。也就是上面我们使用pipe模式实际操作的响应结果。

将输入数据源换成mysql

上面的例子中,我们以一个txt文本为输入数据源,使用了pipe模式导入数据。

基于上述协议的学习和理解,我们只需要将mysql中的数据按照既定的协议通过pipe模式导入Redis即可。

实际案例--从Mysql导入百万级数据到Redis

首先造数据

由于环境限制,所以这里没有用真实数据来实现导入,那么我们就先使用一个存储过程来造一百万条数据把。使用存储过程如下:

  1. DELIMITER $$
  2. USE `cb_mon`$$
  3. DROP PROCEDURE IF EXISTS `test_insert`$$
  4. CREATE DEFINER=`root`@`%` PROCEDURE `test_insert`()
  5. BEGIN
  6. DECLARE i INT DEFAULT 1;
  7. WHILE i<= 1000000
  8. DO
  9. INSERT INTO t_book(id,number,NAME,descrition)
  10. VALUES (i, CONCAT("00000",i) , CONCAT('book',i)
  11. , CONCAT('book_description',i));
  12. SET i=i+1;
  13. END WHILE ;
  14. COMMIT;
  15. END$$
  16. DELIMITER ;

调用存储过程:

  1. CALL test_insert();

查看表数据:

按协议构造查询语句

按照上述redis协议,我们使用如下sql来构造协议数据

  1. SELECT
  2. CONCAT(
  3. "*4\r\n",
  4. "$",
  5. LENGTH(redis_cmd),
  6. "\r\n",
  7. redis_cmd,
  8. "\r\n",
  9. "$",
  10. LENGTH(redis_key),
  11. "\r\n",
  12. redis_key,
  13. "\r\n",
  14. "$",
  15. LENGTH(hkey),
  16. "\r\n",
  17. hkey,
  18. "\r\n",
  19. "$",
  20. LENGTH(hval),
  21. "\r\n",
  22. hval,
  23. "\r"
  24. )
  25. FROM
  26. (SELECT
  27. "HSET" AS redis_cmd,
  28. id AS redis_key,
  29. NAME AS hkey,
  30. descrition AS hval
  31. FROM
  32. cb_mon.t_book
  33. ) AS t limit 1000000

并将内容保存至redis.sql 文件中。

编写脚本使用pipe模式导入redis

编写shell脚本。由于我在主机上是通过docker安装的redis和mysql,以下脚本供参考:

  1. #!/bin/bash
  2. starttime=`date +'%Y-%m-%d %H:%M:%S'`
  3. docker exec -i 899fe01d4dbc mysql --default-character-set=utf8
  4. --skip-column-names --raw < ./redis.sql
  5. | docker exec -i 4c90ef506acd redis-cli --pipe
  6. endtime=`date +'%Y-%m-%d %H:%M:%S'`
  7. start_seconds=$(date --date="$starttime" +%s);
  8. end_seconds=$(date --date="$endtime" +%s);
  9. echo "脚本执行耗时: "$((end_seconds-start_seconds))"s"

执行截图:

可以看到百万级的数据导入redis,只花费了7秒,效率非常高。

注意事项

如果mysql表特别大,可以考虑分批导入,或者将表拆分,否则在导入过程中可能会发生

  1. lost connection to mysql server during query

由于max_allowed_packed和超时时间限制,查询数据的过程中,可能会造成连接断开,所以在数据表的数据量特别大的时候,需要分页或者将表拆分导入。

总结

本篇文章主要探讨了,Mysql百万级数据量级下,如何高效的迁移到Redis中去,逐步实现目标的过程中,总结了如下几点

  1. redis单线程执行命令,避免了线程切换所消耗的时间,但是在超大数据量级下,其发送、响应接收的时延不可忽视。
  2. 网络nc命令的应用场景,及在数据导入时存在的缺点。
  3. redis RESP协议的理解和应用。
  4. 百万量级Mysql数据的Redis快速导入案例。

Mysql百万数据量级数据快速导入Redis的更多相关文章

  1. MySQL 之 LOAD DATA INFILE 快速导入数据

    SELECT INTO OUTFILE > help select; Name: 'SELECT' Description: Syntax: SELECT [ALL | DISTINCT | D ...

  2. SQLSERVER大批量数据快速导入Redis

    目的 把单表近5千万的某单个字段导入到Redis,作为一个list存储. 方案一: 使用sqlcmd工具(sqlserver自带),直接生成命令在Redis-cli中执行. 方案一. 使用sqlcmd ...

  3. python生成数据后,快速导入数据库

    1.使用python生成数据库文件内容 # coding=utf-8import randomimport time def create_user():    start = time.time() ...

  4. mysql导入redis

    将mysql中数据库指定表导入redis 如何将mysql中某个数据库中的表数据快速导入redis? 以下将演示将本地127.0.0.1中数据库test中的表t_abc导入本地redis中.步骤如下: ...

  5. 通过管道传输快速将MySQL的数据导入Redis

    通过管道传输pipe将MySQL数据批量导入Redis      自Redis 2.6以上版本起,Redis支持快速大批量导入数据,即官网的Redis Mass Insertion,即Pipe传输, ...

  6. 将mysql表数据批量导入redis zset结构中

    工作中有这样一个需求,要将用户的魅力值数据做排行,生成榜单展示前40名,每隔5分钟刷新一次榜单.这样的需求用redis的zset是很方便实现的.但是数据存在mysql的表中,有400多万条,怎么将其快 ...

  7. 54.超大数据快速导入MySQL

    超大数据快速导入MySQL  ----千万级数据只需几十分钟本地测试方法1.首先需要修改本地mysql的编码和路径,找到my.ini.2.在里面添加或修改 character-set-server=u ...

  8. mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式)

    mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式) 首先将要导入的数据文件top5000W.txt放入到数据库数据目录/var/local/mysql/data/${d ...

  9. PHP MySQL 快速导入10万条数据

    项目背景 数据来源:所有数据均为外部导入,最大数据量在10w+ 输出数据:导出经过业务处理之后的数据 使用框架:fastadmin 涉及的问题: 1.数据读取 2.数据保存 使用数据:10w+ 解决方 ...

随机推荐

  1. SQL预处理

    每向数据库发送一条SQL语句,数据库中的SQL解释器就会将SQL语句转换成数据库底层命令,然后执行该命令完成相关的数据库操作.如果频繁的向数据库提交SQL语句,势必会增加数据库中SQL解释器的负担,进 ...

  2. asp.net core 3.x 通用主机原理及使用

    一.前言 只是讲asp.net core 3.x通用主机的大致原理,这些东西是通过查看源码以及自己根据经验总结得来的,在文章中不会深入源码,因为个人觉得懂原理就晓得扩展点,后期碰到有需求的时候再仔细去 ...

  3. 小小知识点(二十五)5G关键技术——Massive MIMO(大规模天线阵列)和beamforming(波束成形)

    转自http://www.elecfans.com/d/949864.html 多输入多输出技术(Multiple-Input Multiple-Output,MIMO)是指在发射端和接收端分别使用多 ...

  4. C语言联合体(union)的使用方法及其本质-union

    转载自:https://blog.csdn.net/si_zhou_qun_84342712/article/details/53187106 1.联合体union的基本特性——和struct的同与不 ...

  5. layui下拉选择框select不显示

    弹层layer下拉框没有样式_不可点击_没有效果_渲染失效的解决办法 一.必须给表单体系所在的父元素加上 class="layui-form" 在一个容器中设定 class=&qu ...

  6. 【DPDK】【CPU usage】DPDK应用如何计算当前系统的压力

    [前言] 使用DPDK开发的朋友应该都了解使用dpdk的fwd线程的工作模式是polling模式,即100%轮询的方式去加速网络IO,这样我们在操作系统层面上来观察目标processer会发现usag ...

  7. Docker——WIN7 安装 Docker实战与入门

    1.Docker简介 Docker 是一个开源项目,诞生于 2013 年初,最初是 dotCloud 公司内部的一个业余项目.它基于 Google 公司推出的 Go 语言实现. 项目后来加入了 Lin ...

  8. Scala与Mongodb实践1-----mongodbCRUD

    目的:如何使用MongoDB之前提供有关Scala驱动程序及其异步API. 1.现有条件 IDEA中的:Scala+sbt+SDK mongodb-scala-driver的网址:http://mon ...

  9. 字符串转hash进阶版

    #include<bits/stdc++.h> using namespace std; ,mod=; vector<unsigned> H[mod]; void Add(un ...

  10. 【UWP】使用 LiteDB 存储数据

    序言: 在 UWP 中,常见的存储数据方式基本上就两种.第一种方案是 UWP 框架提供的 ApplicationData Settings 这一系列的方法,适用于存放比较轻量的数据,例如存个 Bool ...