MySQL 王者晋级之路

3.2 Query Cache：

3.3 存储引擎

一、TokuDB的特点：

– 插入性能加快20到80倍
– 压缩数据减少存储空间
– 数据量可扩展到几个TB
– 不会产生索引碎片
– 支持Hot Column Addition, Hot Indexing和MVCC

具有高扩展性的存储引擎：TokuDB posted on 2013 年 4 月 29 日 · 5 comments · 1,429 次浏览 TokuDB是什么？TokuDB是一个应用在MySQL和MariaDB中的存储引擎，它使用索引来加快查询速度，具有高扩展性并支持Hot Schema Modification。如果你的记录数量过亿、存储旧的记录或想要缩小数据占用的存储空间，很适合使用TokuDB。本文内容摘自淘宝核心系统团队博客分享的文档，最下面有原文地址及文档下载。一、TokuDB的特点： – 插入性能加快20到80倍 – 压缩数据减少存储空间 – 数据量可扩展到几个TB – 不会产生索引碎片 – 支持Hot Column Addition, Hot Indexing和MVCC 二、TokuDB的安装和使用：三、Fractal Tree： Fractal Tree是TokuDB中使用的索引结构，是TokuDB安身立命的根本，插入性能可以匹配B树最好的情况，高于B树最差情况两个数量级。 1、Fractal Tree结构特点 – 由多个有序的数组构成，大小呈指数级增长 – 数组要么全空，要么全满 – 数据插入到最小的数组，如果空间不够就将数据进行Merge 2、Fractal Tree的建立 3、Fractal Tree的建立 (cont.) 4、Fractal Tree上的查询四、TokuDB提供的特殊支持： Hot Index Creation，TokuDB允许在已有table上创建索引，同时在索引创建的过程中可以进行insert和query操作。 – 需要设定服务器变量set tokudb_create_index_online=on – 只能使用create index命令 Hot Column Addition and Deletion(HCAD)，TokuDB允许在已有table上添加或者删除属性列，同时只在很短的时间内阻塞update和query操作。 – HCAD会获取一个表锁，用于将脏页刷到外存，所以会暂时阻塞其他操作五、TokuDB占用的存储空间：六、如何使用TokuDB？如果你要存储blob，不要使用TokuDB，因为它限制记录不能太大；如果你的记录数量过亿，使用TokuDB；如果你注重update的性能，不要使用TokuDB，它没有Innodb快；如果你要存储旧的记录，使用TokuDB；如果你想要缩小数据占用的存储空间，使用TokuDB；附上以上相关内容的ppt文档百度网盘下载地址：RethinkDBTokuDB调研测试报告.pptx 以上内容来源于：淘宝核心系统团队博客

http://mysql.taobao.org/monthly/2017/07/04/

你需要知道的MySQL开源存储引擎TokuDB 在四月份的Percona Live MySQL会议上， TokuDB庆祝自己成为开源存储引擎整一周年。我现在仍能记得一年前它刚创建时的官方声明与对它的期望。当时的情况非常有意思，因为它拥有帮助MySQL管理大数据的潜力，而这是InnoDB无法做到的。TokuDB还有一些有意思的特性，比如”热模式转换（hot schema changes）”，可以使我们昂贵的闪存能够持续更长时间。尽管在过去这一年里，我一直在关注TokuDB的发展，但我一直认为我不会去尝试使用它。直到最近，Percona Server发布了支持TokuDB插件的beta版本，我才觉得值得一试。如果你还没有尝试过TokuDB，现在就是一个机会。首先我将介绍TokuDB是如何与MySQL协同工作的。大家都知道，MySQL的核心在于存储引擎。InnoDB已经完全改变了MySQL，不仅让MySQL支持事务处理，并让整个系统变得更加成熟和稳定。即使是那些并不是事务特性的应用使用InnoDB也自得其乐。但是你是否记得不久之前InnoDB也是第三方专有插件呢?首先你需要将它与MySQL进行编译。然后将能够很容易的将该插件安装或者下载到已存在的服务器中。但是当InnoDB开源之后，一切就变得繁荣昌盛起来：人们越来越能接受它，而且慢慢地，它走上了正轨，得到了人们的推广。任何一个人都能阅读、修复、扩展它的编码，很多公司提交自己的修改融入其中，让InnoDB变得更好，直到它成为MySQL的首屈一指的存储引擎。平衡大数据与存储成本目前来看，与类似的MyISAM表相比，数据存（即使是压缩存储）到一个InnoDB表中需要的磁盘空间的确要更大，但是没有人会认为在一项新技术发展过程中不会出现缺点和不足。同时，磁盘的存储能力也在增强，这也有助于平衡每字节的价格，而且也能补偿InnoDB的空间需求。但是磁盘容量的增加也对“什么值得存储”的界限进行了扩展。曾经的GB级磁盘既是近乎无限的存储空间，到如今已经成为有限，而TB级的磁盘成为了标配和基本需求。同时，尽管有大量有意思的东西可以浏览和探索，人们的注意力开始涣散，之前能够牢牢抓住现在却常常难以吸引眼球。如今，如果一个网站需要数秒才能进入，那么有些人就可能会失去兴趣。 SSD磁盘开始进行挽救这种情况，只需普通机械磁盘耗时的一小部分便能访问到数据。然而SSD在容量的扩展性却不太好：每字节成本的增加是跟与数据获取速度成比例的，而且SSD的寿命（或称持久性）不是很好，这是一笔昂贵的支出。需要明智地使用SSD。基于这个原因，现在人们逐渐开始采用混合使用的方式，用快速、昂贵的SSD磁盘存储“热”的数据，将更慢一些、便宜一些的机械磁盘存储其他所有的数据。当然，这只是一种短期内可使用的方案，因为这难以维护，并要求大量专业人才去决定每一种磁盘存储哪种数据。长期来看作为一种较为便宜的存储，可以预测基于SSD的方案将发展的更好。但是，在此之前，还是很有必要在大数据与硬件投资之间做出权衡，做合乎两方的选择。 TokuDB的前提解决这个问题还有一个办法，就是转变逻辑。如果能够在同样大小的磁盘容量中储存更多数据，而且能够存储、读取的更快，那么我们就可能得到更好的结果（从性能方面来讲）并获得存储投资带来的更好回报。这就是在TokuDB存储引擎发展过程中，Tokutek要达到的目标。它架构的核心基于一个不同的、现代的检索方法，名为分形树索引（FTI，Fractal Tree Indexes）。我所说的“不同”在于，大部分流行的存储引擎，比如MyISAM 、 InnoDB，都是基于B树索引。在过去至少30年内，该索引都保持着，作为某种无法挑战的标准。我所说的“现代”，是因为FTI的设计考虑到了写-密集型操作（这种操作在现在的数据系统中出现的越来越频繁）以及最新存储设备易损耗的特性。两种数据结构都是基于树的，类似地在叶节点中存数数据，并且利用索引Key值加速排序。但是它们通过树来管理与存储数据的方法是不同的。TokuDB以及它的分形树索引与基于B树的InnoDB相比，使用的块大小更大（更大的叶子节点），进而数据能够得到更好的压缩（使用更小磁盘空间的关键技术），也提高了范围查询的性能。同样重要的是，TokuDB称能够通过一个消息传递系统与“优化的”缓存机制来更好的利用I/O。尽管在基于传统B树的系统中，对表的一个改变会触发索引的相应更新，TokuDB最初会将每一个改变都当做一条消息。有意思的是，在消息到达相应的叶子节点并作出修改之前，它所带来的改变就已经存在于数据库中了。于是，数据库的内容则是叶子节点中存储的数据加上消息循环中的数据。这使存储引擎更加敏捷，举例来说，这会在热模式转换（Hot Schema Changes）中发挥重要的作用。对于优化的I/O缓存系统的读操作，与更大的叶子节点的使用有关。或者如果你愿意的话，也有另外的方法：更有效的方法来使用缓存，使得更大的叶子节点的使用成为可能。这里提到的有效主要指的是带宽使用程度。需谨记，从消耗的时间来看，对磁盘的I/O远大于对内存的I/O;这就是使用缓存的原因——更频繁的将数据储存于缓冲中（低消耗），就可以减少将缓存“刷到”磁盘的频率（高消耗）。刷到磁盘的缓冲区越满，可以达到的带宽利用率越高。TokuDB试图最大限度的利用缓存，即“对单个I/O进行成千上万次操作”。B树的问题是因为设计的原因，它很难实现一个有效的缓存系统，而人们经常习惯将不太满的缓存刷到磁盘。因此，对于B树来说，更好的方法是在B树中维持小一些的叶子节点，这样产生的副作用是使压缩变差。Tokutek的工程负责人Tim Callaghan 11月份时在Percona Live London解释了对比的各种不同，比我解释的要好得多，优化使用I/O，使得写操作密集型应用受益良多。目前在我们的Percona Cloud Tools （PCT）中使用TokuDB，用来存储和分析来自MySQL服务器的查询日志。选择TokuDB作为PCT存储设备的另一个好处是压缩性能更好，如果没有这个的话，在PCT服务beta阶段，我们会在支持的用户数上受到很多限制。压缩的影响究竟有多大?就像MySQL中的其他事情一样，这取决于你的模式。据Shlomi Noach报导，他能够把未压缩的InnoDB引擎的4TB数据（或者是使用KEY_BLOCK_SIZE=8压缩的InnoDB引擎的2TB数据）压缩到200GB。这样能够给大家一个感性的认识。压缩本身就是TokuDB一个很吸引人的特性，但是对于存储空间的大小不是问题的应用场景，这个存储引擎也做的不错。对于写（INSERT）性能而并非网络是性能瓶颈的场景来说，对I/O的优化能够延迟副本操作。如果你需要对一个大表添加一列或者添加第二索引，“热模式转换”功能将助力不少。对于闪存磁盘的持久性也有不少重要影响。Mark Callaghan对于之前的文章做过以下评论：“与InnoDB相比，全磁盘服务器使用TokuDB支持更大的负载压力，全闪存的服务器使用TokuDB是通用的——2倍以上的压缩率（与InnoDB的压缩相比）以及批量的写操作（更多是顺序写）意味着你你可以买更少的闪存、这些闪存可以用更久、买更为廉价的缓存也能够用”。另外，不要忘了TokuDB中让Vadim最赏心悦目的一个特性：支持使用SHOW PROCESSLIST跟踪查询的实时进展。展望 Tokutek擅长打破传统，并从其他角度出发找到了TokuDB发展中的问题。它受益于MySQL的开放性，使用它的引擎API实现了一个完全不同的方案，该方案脱胎于对现实的深思熟虑——更快的多核CPU、现代却又“脆弱”的存储设备以及对“大数据”的渴望。当然，它也受益于对基于B树的存储引擎的观察，该引擎在过去数十年内处理了不断进化的数据，伴随着新方法和新算法到来，一直让事情变得更加简单。与InnoDB相比，TokuDB更容易进行调优：我统计过共有40个“tokudb_”变量，而“innodb_”有超过100个。但是这还需要时间的考验。尽管我们并不是在讨论一个崭新的引擎（Vadim在5年前就记录过他对该引擎的使用经历），但该引擎最近变成了开源的、公共的，并处于初始阶段。尽管在稳步发展，我们也还是能看到很多未解决的bug。令人担忧的是目前并没有支持TokuDB的开源热备份软件。尽管有一个“可插拔备份工具标准”在GitHub上提供有HotBackup的API，而目前唯一一个可能存在的热备份方案存在于TokuDB的企业版本中。TokuDB的设计并不适用于“拷贝数据库文件、然后在把存有数据库变化的日志应用到文件上”这样的备份方案，而这正是MySQL Enterprise Backup及Xtrabackup的工作方式，所以现在仍然没有希望，简单扩展一个已存在的开源软件来就可以支持TokuDB，如Percona XtraBackup 之类的软件。我们将充满希望的看到一个新的开源备份软件到来，它将在不久的未来使用对外的API来实现，但是现在看来多数软件还是基于快照的工具，停留在文件系统水平，如mylvmbackup和 xfs_freeze，它们可以暂时作为未来新方法的替代方案。

https://dbaplus.cn/news-149-418-1.html 腾讯互娱 DBA 排坑集锦

MySQL 王者晋级之路的更多相关文章

mysql老司机之路
MYSQL数据库基础: 数据库帮我们解决以下数据存取难题: 较大数据量事务控制持久化和数据安全高性能要求高并发访问关系型:mysql,oracle,sql server,postgresql ...
MySQL DBA成长之路
http://blog.51cto.com/zt/579 :GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'192.168.1.3' IDENTIFIED BY 'm ...
Laravel 菜鸟的晋级之路
第一阶段:简单的增删改查这是最开始接触Laravel的一个阶段.如果有PHP经验,那么应该能很快找到MVC的路径,然后驾轻就熟的开始写起来.虽然还显得有些笨拙,不过很快就能做出一些内容了.如果没有P ...
icon 的前生今世 & iconfont 的晋级之路
布吉岛为啥起了个这么文(dou)艺(bi)的名字,话不多说,开始总结
阿里云MVP 第十期全球发布：让天下没有难做的技术
简介: MVPs与阿里云一起探索前路,用技术改变世界! 在云的世界中,从来没有“简单”二字,想成为一个优秀的开发者,也没有“简单”二字,而阿里云MVP就一直是云计算中最为顶尖的专家.现在,阿里云MVP ...
12天，这本《重学Java设计模式》PDF书籍下载量9k，新增粉丝1400人，Github上全球推荐榜！
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言
BATJTMD，大厂招聘，都招什么样Java程序员？
作者:小傅哥博客:https://bugstack.cn 沉淀.分享.成长,让自己和他人都能有所收获! 一.前言 Java学到什么程度可以找工作? 最近总看到类似这样的问题,也有一些工作3年左右的小 ...
Mysql优化_ORDER BY和GROUP BY 的优化讲解（单路排序和双路排序）
ORDER BY 子句尽量使用Index方式排序,避免使用FileSort方式排序,尽可能在索引列上外城排序操作,遵照索引键的最佳左前缀.如果不在索引列上,FileSort有两种算法,Mysql就要启 ...
一个高级的J2E工程师需要面对MySQL要有那些基本功夫呢<上>
1. MySQL的架构介绍1.1 MySQL简介: MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle公司. MySQL是一种关联数据库管理系统,将数据保存在不 ...

随机推荐

POJ 2386 Lake Counting 题解《挑战程序设计竞赛》
地址 http://poj.org/problem?id=2386 <挑战程序设计竞赛>习题题目描述Description Due to recent rains, water has ...
关于sublime建立python工程的说明
https://www.zhihu.com/question/22681628此链接说明的不错,可以参考. 为了方便使用sublime,难免要定义一些快捷键,https://www.whidy.net ...
关于Unity中AI随机巡逻障碍物预判与快速运动时物理穿透的思考
如果不想用Unity的导航系统,很多时候就要解决如何预判前进路径中的障碍物问题,之前也看过一些非常经典的寻路算法例如AStar寻路,虽然也可实现功能,但总感觉有些小题大做.寻路算法大多数都是为了得出最 ...
CSP-S 爆零记
抱歉,这么晚才更. 事实是:我都没有去所以爆零了 QwQ
LOAD_DLL_DEBUG_EVENT 时读取 DllName
这句话是说 lpImageName 和 hFile 存在关联(associated),不是一定指向! 继续读后面那句,“这个数字可能为NULL,或者包含着被调试进程空间中的一个字符串地址.这个地址,相 ...
GO　基本语法——变量
基本语法--变量一.变量的使用 1.1 什么是变量变量是为存储特定类型的值而提供给内存位置的名称.在go中声明变量有多种语法. 所以变量的本质就是一小块内存,用于存储数据,在程序运行过程中数值可以 ...
【语义分割】Stacked Hourglass Networks 以及 PyTorch 实现
Stacked Hourglass Networks(级联漏斗网络) 姿态估计(Pose Estimation)是 CV 领域一个非常重要的方向,而级联漏斗网络的提出就是为了提升姿态估计的效果,但是其 ...
OpenGL入门1.6：坐标系统，3D箱子
每一个小步骤的源码都放在了Github 的内容为插入注释,可以先跳过前言我们已经学习了如何利用矩阵变换来对所有顶点进行变换 OpenGL希望在每次顶点着色器运行后,我们可见的所有顶点都为标准化设备 ...
php中搭建Web服务器和服务器配置
1.搭建Web服务器 1.1目录结构 1.2访问服务器访问规则:http://服务器ip地址/php页面比如: http://localhost/demo.php http://127.0 ...
Java反射及注解
一.反射 1.动态语言:是指程序在运行是可以改变其结构:新的函数可以引进,已有的函数可以被删除等结构上的变化.比如常见的JavaScript就是动态语言,除此以外Python等也属于动态语言,而C.C ...

MySQL 王者晋级之路

一、TokuDB的特点：

具有高扩展性的存储引擎：TokuDB

一、TokuDB的特点：

二、TokuDB的安装和使用：

三、Fractal Tree：

四、TokuDB提供的特殊支持：

五、TokuDB占用的存储空间：

六、如何使用TokuDB？

你需要知道的MySQL开源存储引擎TokuDB

平衡大数据与存储成本

TokuDB的前提

展望

MySQL 王者晋级之路的更多相关文章

随机推荐

热门专题