MySQL 创建千万集数据

- MySQL测试任务：使用存储过程，往表中插入千万级数据，根据索引优化速度

-- 1.使用索引查询

-- 2.不使用索引查

-- 3.比较两者查询速度的差异

1.创建数据和索引

1.创建索引测试表

1

2

3

4

5

6

7

DROP TABLE IF EXISTS big_data;

CREATE TABLE big_data(

id int PRIMARY KEY NOT NULL AUTO_INCREMENT,

name VARCHAR(16) DEFAULT NULL,

age int(11),

email varchar(64) default null

)ENGINE=MYISAM DEFAULT CHARSET=utf8;

注意:MYISAM存储引擎不产生引擎事务，数据插入速度极快，为方便快速插入千万条测试数据，等我们插完数据，再把存储类型修改为InnoDB

　　2.创建存储过程，插入数据

1

2

3

4

5

6

7

8

CREATE PROCEDURE `insert_data_p`(IN num INT)

BEGIN

DECLARE n INT DEFAULT 1;

WHILE n <= num DO

INSERT INTO big_data(name,age,email)values(concat('alex',n),rand()*50,concat('alex',n,'@qq.com'));

set n=n+1;

end while;

ENd;　

　　3.调用存储过程,插入1000万条数据(总耗时:382.614 sec)

1

CALL insert_data_p(10000000);

　　

　　

　 4.此步骤可以忽略。修改引擎(执行耗时: 104.431 sec )

1

ALTER TABLE `big_data` ENGINE=INNODB;

　　5.通过主键索引查询(总耗时:0.012 sec)

1

select * from big_data where id = 8950000

注意: 大家可能会发现一个问题: 第一次查询时,会有点慢,而第二次查询时就要比第一次快很多, why?

原因: 表引擎使用innodb.第一次查询会走数据文件，第二次直接走buffer_pool(缓冲池),所以比直接查询数据文件要快

　　6.为 name 字段创建普通索引(耗时:73.972 sec)

1

CREATE INDEX index_name ON big_data (name);

2.组合索引的生效原则:

　　原则: 从前往后依次使用生效，如果中间某个索引没有使用，那么断点前面的索引部分起作用，断点后面的索引没有起作用；

+

3.正确使用索引

　　数据库表中添加索引后确实会让查询速度起飞，但前提必须是正确的使用索引来查询，如果以错误的方式使用，则即使建立索引也会不奏效。
即使建立索引，索引也不会生效：

+

4.需要注意

1

2

3

4

5

6

7

8

9

10

1.避免使用select *

2.count(1)或count(列) 代替 count(*)

3. 创建表时尽量时 char 代替 varchar

4. 表的字段顺序固定长度的字段优先

5. 组合索引代替多个单列索引（经常使用多个条件查询时）

6. 使用连接（JOIN）来代替子查询(Sub-Queries)

7. 不要有超过5个以上的表连接（JOIN）

8. 优先执行那些能够大量减少结果的连接。

9. 连表时注意条件类型需一致

10.索引散列值不适合建索引，例：性别不适合

5.时间 (执行计划)

　　explain + 查询SQL - 用于显示SQL执行信息参数，根据参考信息可以进行SQL优化

1

explain select * from big_data where age ='44' and name ='用户8950000'

　

+

6.慢日志查询

慢查询日志

　　将mysql服务器中影响数据库性能的相关SQL语句记录到日志文件，通过对这些特殊的SQL语句分析，改进以达到提高数据库性能的目的。

慢查询日志参数:

1

2

3

4

5

long_query_time     ：设定慢查询的阀值，超出设定值的SQL即被记录到慢查询日志，缺省值为10s

slow_query_log      ：指定是否开启慢查询日志

log_slow_queries    ：指定是否开启慢查询日志(该参数已经被slow_query_log取代，做兼容性保留)

slow_query_log_file ：指定慢日志文件存放位置，可以为空，系统会给一个缺省的文件host_name-slow.log

log_queries_not_using_indexes: 为使用索引的搜索是否记录

查看 MySQL慢日志信息

1

2

3

4

#.查询慢日志配置信息 :

show variables like '%query%';

#.修改配置信息

set global slow_query_log = on;

查看不使用索引参数状态:

1

2

3

4

# 显示参数　　

show variables like '%log_queries_not_using_indexes';

# 开启状态

set global log_queries_not_using_indexes = on;

7.大数据量分页优化

1

select * from tb1 limit 3000000,10;

优化方案:

一. 简单粗暴，就是不允许查看这么靠后的数据，比如百度就是这样的

最多翻到72页就不让你翻了，这种方式就是从业务上解决；

二.在查询下一页时把上一页的行id作为参数传递给客户端程序，然后sql就改成了

1

select * from tb1 where id>3000000 limit 10;

这条语句执行也是在毫秒级完成的，id>300w其实就是让mysql直接跳到这里了，不用依次在扫描全面所有的行

如果你的table的主键id是自增的，并且中间没有删除和断点，那么还有一种方式，比如100页的10条数据

1

select * from tb1 where id>100*10 limit 10;

三.最后第三种方法：延迟关联

我们在来分析一下这条语句为什么慢，慢在哪里。

1

select id from tb1 limit 3000000,10;

玄机就处在这个 * 里面，这个表除了id主键肯定还有其他字段比如 name age 之类的，因为select * 所以mysql在沿着id主键走的时候要回行拿数据，走一下拿一下数据；

如果把语句改成

1

select id from tb1 limit 3000000,10;

你会发现时间缩短了一半；然后我们在拿id分别去取10条数据就行了；

语句就改成这样了：

1

select table.* from tb1 inner join ( select id from tb1 limit 3000000,10 ) as tmp on tmp.id=table.id;

这三种方法最先考虑第一种其次第二种，第三种是别无选择

MySQL 创建千万集数据的更多相关文章

mysql数据库千万级别数据的查询优化和分页测试
原文地址:原创 mysql数据库千万级别数据的查询优化和分页测试作者:于堡舰本文为本人最近利用几个小时才分析总结出的原创文章,希望大家转载,但是要注明出处 http://blog.sina.com. ...
MySQL 创建数据库及数据表
1.创建数据库 (1) 命令行创建 [root@host]# mysqladmin -u root -p create RUNOOB Enter password:****** (2) php创建语 ...
Excel 批量导入Mysql(创建表-追加数据)
之前弄数据库的时候, 测试excel导mysql, 中间用pandas 处理后再入库. 直接上代码, 此种有真意, 尽在不言中. #!/usr/bin/env python # coding: ut ...
MySQL 创建和删除数据表
创建MySQL数据表需要以下信息: 表名表字段名定义每个表字段语法以下为创建MySQL数据表的SQL通用语法: CREATE TABLE table_name (column_name col ...
mysql -- 创建存储过程往数据表中新增字段
需求: 往某数据库的某个表中新增一个字段(若该字段已存在,则不做操作:若该字段不存在,则新增) 百度了n久,没有符合要求的例子,只有参考加自己琢磨,最终终于给弄出来了,以下是几个版本的更迭第一版: ...
复习MySQL①创建数据库及数据表
• 创建数据库:create database 数据库名称; – 例:创建名为test的测试数据库 create database test; • 查看创建好的数据库:show create data ...
MySql 创建表插入数据！
create table stu( id int, sname VARCHAR(20), sex VARCHAR(1), birthday DATETIME) insert into stu valu ...
mysql千万级数据表，创建表及字段扩展的几条建议
一:概述当我们设计一个系统时,需要考虑到系统的运行一段时间后,表里数据量大约有多少,如果在初期,就能估算到某几张表数据量非常庞大时(比如聊天消息表),就要把表创建好,这篇文章从创建表,增加数据,以及 ...
mysql循环插入千万级数据
mysql使用存储过程循环插入大量数据,简单的一条条循环插入,效率会很低,需要考虑批量插入. 测试准备: 1.建表: CREATE TABLE `mysql_genarate` ( `id` ) NO ...

随机推荐

CoreThink主题开发（七）使用H-ui开发博客主题之新闻资讯正文页面
感谢H-ui.感谢CoreThink! 效果图: 后台发文章有上传附件.封面的功能,但是前台代码中有,不能显示,去除了,前台页面还有社会化分享,百度的,页面也不显示. Blog/Cms/Index/d ...
ssh 的用法
一.什么是SSH? 简单说,SSH是一种网络协议,用于计算机之间的加密登录. 如果一个用户从本地计算机,使用SSH协议登录另一台远程计算机,我们就可以认为,这种登录是安全的,即使被中途截获,密码也不会 ...
1.3 使用电脑测试MC20的电话语音功能
需要准备的硬件 MC20开发板 1个 https://item.taobao.com/item.htm?id=562661881042 GSM/GPRS天线 1根 https://item.taoba ...
算法题 19 二叉平衡树检查牛客网 CC150
算法题 19 二叉平衡树检查牛客网 CC150 实现一个函数,检查二叉树是否平衡,平衡的定义如下,对于树中的任意一个结点,其两颗子树的高度差不超过1. 给定指向树根结点的指针TreeNode* ro ...
Google Cloud Platfrom中使用Linux VM
Linkes https://cloud.google.com/compute/docs/quickstart-linuxhttps://console.cloud.google.com/comput ...
classmethod和staticmethod区别
实例方法:在类中,定义的方法,这个方法的第一个参数默认是实例对象,一般习惯使用self 类方法:在类中,定义的方法,这个方法的第一个参数默认是类对象,一般习惯用cls表示,用@classmethod装 ...
【转】Python的hasattr() getattr() setattr() 函数使用方法详解
Python的hasattr() getattr() setattr() 函数使用方法详解 hasattr(object, name)判断一个对象里面是否有name属性或者name方法,返回BOOL值 ...
api token
具体实现如下: 1. api请求客户端想服务器端一次发送用用户认证信息(用户名和密码),服务器端请求到改请求后,验证用户信息是否正确. 如果正确:则返回一个唯一不重复的字符串(一般为UUID),然后在 ...
libhdfs的配置和使用
测试环境:centos6.10,hadoop2.7.3,jdk1.8 测试代码:HDFSCSample.c #include "hdfs.h" #include <strin ...
[转载]OpenWRT使用wifidog实现强制认证的WIFI热点 | 半个橙子
首先安装wifidog到OpenWRT的路由器: opkg update opkg install wifidog wifidog依赖下面这些模块: iptables-mod-extra iptabl ...

MySQL 创建千万集数据

1.创建数据和索引

2.组合索引的生效原则:

3.正确使用索引

4.需要注意

5.时间 (执行计划)

6.慢日志查询

7.大数据量分页优化

MySQL 创建千万集数据的更多相关文章

随机推荐

热门专题