MySQL 快速删除大量数据（千万级别）的几种实践方案

笔者最近工作中遇见一个性能瓶颈问题，MySQL表，每天大概新增776万条记录，存储周期为7天，超过7天的数据需要在新增记录前老化。连续运行9天以后，删除一天的数据大概需要3个半小时（环境：128G, 32核，4T硬盘），而这是不能接受的。当然如果要整个表删除，毋庸置疑，用

TRUNCATE TABLE就好。

最初的方案（因为未预料到删除会如此慢），代码如下（最简单和朴素的方法）:

delete from table_name where cnt_date <= target_date

后经过研究，最终实现了飞一般的速度删除770多万条数据，单张表总数据量在4600万上下，优化过程的方案层层递进，详细记录如下：

批量删除（每次限定一定数量），然后循环删除直到全部数据删除完毕；同时key_buffer_size 由默认的8M提高到512M

运行效果：删除时间大概从3个半小时提高到了3小时

（1）通过limit(具体size 酌情设置）限制一次删除的数据量，然后判断数据是否删除完，附源码如下（Python实现）：

def delete_expired_data(mysqlconn, day):

    mysqlcur = mysqlconn.cursor()

    delete_sql = "DELETE from table_name where cnt_date<='%s' limit 50000" % day

    query_sql = "select srcip from table_name  where cnt_date <= '%s' limit 1" % day

    try:

        df = pd.read_sql(query_sql, mysqlconn)

        while True:

            if df is None or df.empty:

                break

            mysqlcur.execute(delete_sql)

            mysqlconn.commit()

            df = pd.read_sql(query_sql, mysqlconn)

    except:

       mysqlconn.rollback()

（2）增加key_buffer_size

mysqlcur.execute("SET GLOBAL key_buffer_size = 536870912")

key_buffer_size是global变量，详情参见Mysql官方文档： https://dev.mysql.com/doc/refman/5.7/en/server-configuration.html

DELETE QUICK + OPTIMIZE TABLE

适用场景：MyISAM Tables

Why: MyISAM删除的数据维护在一个链表中，这些空间和行的位置接下来会被Insert的数据复用。直接的delete后，mysql会合并索引块，涉及大量内存的拷贝移动；而OPTIMIZE TABLE直接重建索引，及直接把数据块情况，再重新搞一份。

运行效果：删除时间大3个半小时提高到了1小时40分

具体代码如下：

def delete_expired_data(mysqlconn, day):

    mysqlcur = mysqlconn.cursor()

    delete_sql = "DELETE QUICK from table_name where cnt_date<='%s' limit 50000" % day

    query_sql = "select srcip from table_name where cnt_date <= '%s' limit 1" % day

    optimize_sql = "OPTIMIZE TABLE g_visit_relation_asset"

    try:

        df = pd.read_sql(query_sql, mysqlconn)

        while True:

            if df is None or df.empty:

                break

            mysqlcur.execute(delete_sql)

            mysqlconn.commit()

            df = pd.read_sql(query_sql, mysqlconn)

        mysqlcur.execute(optimize_sql)

        mysqlconn.commit()

    except:

       mysqlconn.rollback()

表分区，删除直接删除过期日期所在的分区（最终方案—秒杀）

MySQL表分区有几种方式，包括RANGE、KEY、LIST、HASH，具体参见官方文档。因为这里的应用场景日期在变化，所以不适合才用RANGE固定分区名称，而HASH分区更适宜

（1）分区表定义，SQL语句如下：

ALTER TABLE table_name PARTITION BY HASH(TO_DAYS(cnt_date)) PARTITIONS 7;

TO_DAYS将日期（必须为日期类型，否则会报错:Constant, random or timezone-dependent expressions in (sub)partitioning function are not allowed）转换为天数（按一年的天数计算），然后HASH；分区建立7个。实际上，就是 days MOD 7 。

（2）查询出需要老化的日期所在的分区,SQL语句如下：

"explain partitions select * from g_visit_relation_asset where cnt_date = '%s'" % expired_day

（3）OPTIMIZE or REBUILD partition,SQL语句如下：

"ALTER TABLE g_visit_relation_asset OPTIMIZE PARTITION '%s'" % partition

完整代码如下【Python实现】，循环删除小于指定日期的数据：

def clear_partition_data(mysqlconn, day):

    mysqlcur = mysqlconn.cursor()

    expired_day = day

    query_partition_sql = "explain partitions select * from table_name where cnt_date = '%s'" % expired_day

    # OPTIMIZE or REBUILD after truncate partition

    try:

        while True:

            df = pd.read_sql(query_partition_sql, mysqlconn)

            if df is None or df.empty:

                break

            partition = df.loc[0, 'partitions']

            if partition is not None:

                clear_partition_sql = "alter table table_name TRUNCATE PARTITION %s" % partition

                mysqlcur.execute(clear_partition_sql)

                mysqlconn.commit()

                optimize_partition_sql = "ALTER TABLE table_name OPTIMIZE PARTITION %s" % partition

                mysqlcur.execute(optimize_partition_sql)

                mysqlconn.commit()

            expired_day = (expired_day - timedelta(days = 1)).strftime("%Y-%m-%d")

            df = pd.read_sql(query_partition_sql, mysqlconn)

    except:

       mysqlconn.rollback()

其它

如果删除的数据超过表数据的百分之50，建议拷贝所需数据到临时表，然后删除原表，再重命名临时表为原表，附MySQL如下：

   INSERT INTO New

      SELECT * FROM Main

         WHERE ...;  -- just the rows you want to keep

   RENAME TABLE main TO Old, New TO Main;

   DROP TABLE Old;   -- Space freed up here

参考：

1）https://dev.mysql.com/doc/refman/5.7/en/alter-table-partition-operations.html 具体分区说明

2）http://mysql.rjweb.org/doc.php/deletebig#solutions 删除大数据的解决方案

本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

************************************************************************

精力有限，想法太多，专注做好一件事就行

我只是一个程序猿。5年内把代码写好，技术博客字字推敲，坚持零拷贝和原创
写博客的意义在于打磨文笔，训练逻辑条理性，加深对知识的系统性理解；如果恰好又对别人有点帮助，那真是一件令人开心的事

************************************************************************

MySQL 快速删除大量数据（千万级别）的几种实践方案的更多相关文章

MySQL 快速删除大量数据
千万级数据量方案1. 直接使用delete 因delete执行速度与索引量成正比,若表中索引量较多,使用delete会耗费数小时甚至数天的时间方案2. (1)创建临时表,表结构与原表结构相同 ...
oracle 快速删除大批量数据方法（全部删除，条件删除，删除大量重复记录）
oracle 快速删除大批量数据方法(全部删除,条件删除,删除大量重复记录) 分类: ORACLE 数据库 2011-05-24 16:39 8427人阅读评论(2) 收藏举报 oracledel ...
mysql进阶(十五) mysql批量删除大量数据
mysql批量删除大量数据假设有一个表(syslogs)有1000万条记录,需要在业务不停止的情况下删除其中statusid=1的所有记录,差不多有600万条, 直接执行 DELETE FROM s ...
MySQL 中删除的数据都去哪儿了？
不知道大家有没有想过下面这件事? 我们平时调用 DELETE 在 MySQL 中删除的数据都去哪儿了? 这还用问吗?当然是被删除了啊那么这里又有个新的问题了,如果在 InnoDB 下,多事务并发的情 ...
MySQL 快速导入大量数据资料收集
一.LOAD DATA INFILE http://dev.mysql.com/doc/refman/5.5/en/load-data.html 二. 当数据量较大时,如上百万甚至上千万记录时,向My ...
【MySQL】MySQL快速插入大量数据
起源在公司优化SQL遇到一个索引的问题,晚上回家想继续验证,无奈没有较多数据的表,于是,想造一些随机的数据,用于验证. 于是于是动手写.由于自己不是MySQL能手,写得也不好.最后,插入的速度也不 ...
MySQL中删除重复数据的简单方法，mysql删除重复数据
MYSQL里有五百万数据,但大多是重复的,真实的就180万,于是想怎样把这些重复的数据搞出来,在网上找了一圈,好多是用NOT IN这样的代码,这样效率很低,自己琢磨组合了一下,找到一个高效的处理方式, ...
针对mysql delete删除表数据后占用空间不变小的问题
开发环境 Yii1版本 MySQL PHP5.6.27 前言物流规则匹配日志表记录订单匹配规则相关日志信息,方便管理员维护和查阅不匹配的订单,四个月时间,该日志表数据就有174G,当前,这么大的数据 ...
KingbaseES例程之快速删除表数据
概述快速删除表中的数据 delete语句删除数据表中的数据被删除了,但是这个数据在硬盘上的真实存储空间不会被释放. 这种删除缺点是:删除效率比较低. 这种删除优点是:支持删除部分数据,支持回滚. ...

随机推荐

Istio的运维-诊断工具(istio 系列五)
Istio的运维-诊断工具在参考官方文档的时候发现环境偶尔会出现问题,因此插入一章与调试有关的内容,便于简单问题的定位.涵盖官方文档的诊断工具章节目录 Istio的运维-诊断工具使用istioc ...
Java线程池简聊
在Java中,已经实现了4中内置的线程池,这四种我不多聊. 大家各种网站论坛都能查得到. 现在说一下这四种线程池的基类: ThreadPoolExecutor在ThreadPoolExecutor中你 ...
让LED程序在片外SDRAM中运行
让LED程序在片外SDRAM中运行一.引子在前一篇文章中,我们已经成功点亮过LED了,为什么还要再重复一次呢? 我们已经知道,Mini2440开发板有两种启动模式:从NorFlash启动和从Nan ...
在MS SQL(SSMS中)_Format_SQL_更改设置_增加命令
在MS SQL(SSMS中)_Format_SQL_更改设置_增加命令目的:要格式化这么一段SQL语句(这是随便从网上Copy的一段),没细看内容,反正看到头疼,乱七八糟的不想看. select b ...
belongsTo和hasOne的区别
简单的讲就是,没有太大的区别,只是在逻辑上出现的思想的偏差(逻辑的合理性).belongsTo:可以理解为属于hasOne:可以理解为拥有首先,我们创建两张表.user表字段 id name pa ...
11.实战交付一套dubbo微服务到k8s集群(4)之使用Jenkins进行持续构建交付dubo服务的提供者
1.登录到jenkins,新建一个项目 2.新建流水线 3.设置保留的天数及份数 4. 添加参数 # 参数 . name: git_repo type: string description: 项目在 ...
Day10-微信小程序实战-交友小程序-自定义callPhone 和copyText组件
---为了方便用户可以拨打电话和复制微信号(下面就要实现这样的两个功能) 注意:在小程序中是没办法直接的添加用户的微信的,所以就只能是复制微信号 (这种东西的话可以直接去做,也可以做成组件,做出组件的 ...
JavaWeb网上图书商城完整项目--day02-8.提交注册表单功能之dao、service实现
1.发送邮件发送邮件的时候的参数我们都写在了配置文件中,配置文件放在src目录下,可以使用类加载器进行加载该数据 //向注册的用户发送邮件 //1读取配置文件 Properties properti ...
java面试必备知识点-上中下三篇写的很详细
参考博客:写的还是相当的经典 http://www.cnblogs.com/absfree/p/5568849.html 上中下三篇写的很详细 http://blog.csdn.net/riverfl ...
10、一个action中处理多个方法的调用第二种方法method的方式
在实际的项目中,经常采用现在的第二种方式在struct.xml中采用清单文件的方式我们首先来看action package com.bjpowernode.struts2; import com.o ...

MySQL 快速删除大量数据（千万级别）的几种实践方案

MySQL 快速删除大量数据（千万级别）的几种实践方案的更多相关文章

随机推荐

热门专题