实战分析: MySQL字符集
在本文中讨论以下几个问题:
1. GBK和UTF8占用几个字节
2. ASCII码在不同字符集中占用几个字节
3. MySQL中UTF8MB4在存储空间中是不是都是占用4个字节?
字符集问题比较枯燥,知数堂MySQL DBA实战班中,经常遇到一些很利害的同学也对字符集一知半解,想着应该有很多同学也存在这个问题。 那么我们把课程中的内部证明方法整理出来,也让大家感受一下:知数堂MySQL DBA的实战班的风格: 就是干。
Q1 GBK和UTF8占用几个字节
首先来看一下,GBK,UTF8在占用几个字节:
从上图可以看出来, 同样一个"知"字
GBK : "d6 aa" 两个字节
UTF8: "e7 9f a5" 三个字节
其中: 0a 相当于"\n" echo 自带的回车符。
从上面信息来 非ASCII码在不同字符集是占用的字节是不一样的。
a
Q2 ASCII码在不同字符集中占用的字节是不是一样
我们再来看看ASCII码在不同字符集下是不是一样
这里可以看出来,ASCII码在GBK和UTF8下内容都是: 61 占用1个字节。
从上面两个例子来看, 字符集这个大老虎,我们可以借助于16进制进行观查。
Q3 MySQL中UTF8MB4在存储空间中是不是都是占用4个字节?
为了简单分析,创建一个只有一个字段的表:tb_varchar
基于字符集环境:
查看一下表里的内容及统计一下字节长度
下面还是使用hexdump来看一下内容:
第一行内容: 10个a 相当于10个61,在上面先找到61及10个,在往前找,可以找到10的标识。
然后可以看到一个09相当于9个字节, 对应着9个61
再往下面看: 07相当于7个字节, 对应7个61
再往下面看: 06相当于6个字节 对应6个61
再往下面看: 08相当于8个字节 对应8个61
再往下面看: 09相当于9个字节 对应: 3个 "e7 9f a5"对应的"知"字
从上面内容来看, ASCII码在UF8下占用也是1个字节,"知"在UTF8MB4下也占用的是3个字节,并非4个字节。
但对于排序这块上层分配应该是按4个字节来分配的,这块代码待确认。
(大家可能会想: 变字长段的长度标识后面到真正字段内容中是什么? 这块是InnoDB行结构的内容,在这里不展开了,如果对InnoDB特别感兴趣,可以关注一下知数堂MySQL DBA优化班,叶老师亲自为你讲解InnoDB的核心结构)
总结
从以上实验可以看出来:
1. GBK和UTF8占用几个字节
答: GBK占用2个字节, UTF8占用3个字节; ASCII码在不同字符集下占用的字节大小是一致的,都是一个字节。
2. ASCII码在不同字符集中占用几个字节
答: ASCII码在不同字符集下占用字节是一致的。非ASCII码在不同字符集占用的字节是不一样的。
3. MySQL中UTF8MB4在存储空间中是不是都是占用4个字节?
答: 在UTF8MB4中并不是所有的字符都占用4个字节, 例如: ASCII码还是占用1个字节, 一般的中文汉字还是占用3个字节,目前知道的emoji表情是占用4个字节。
你的转发,留言就是最大的支持。
实战分析: MySQL字符集的更多相关文章
- Java互联网架构-Mysql分库分表订单生成系统实战分析
概述 分库分表的必要性 首先我们来了解一下为什么要做分库分表.在我们的业务(web应用)中,关系型数据库本身比较容易成为系统性能瓶颈,单机存储容量.连接数.处理能力等都很有限,数据库本身的“有状态性” ...
- Mysql字符集设置
转 基本概念 • 字符(Character)是指人类语言中最小的表义符号.例如’A'.’B'等:• 给定一系列字符,对每个字符赋予一个数值,用数值来代表对应的字符,这一数值就是字符的编码(Encodi ...
- Mysql字符集知识总结
字符集&字符编码方式 字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,这里的字符可以是英文字符,汉字字符,或者其他国家语言字符. 常见字符集 ...
- MySQL字符集转换引发插入乱码问题
根据http://www.cnblogs.com/cchust/p/4601536.html进行验证测试 问题背景 在mysql上面执行一条普通的insert语句,结果报错: Incorrect st ...
- 查看mysql字符集及修改表结构--表字符集,字段字符集
MySQL 乱码的根源是的 MySQL 字符集设置不当的问题,本文汇总了有关查看 MySQL 字符集的命令.包括查看 MySQL 数据库服务器字符集.查看 MySQL 数据库字符集,以及数据表和字段的 ...
- MySQL字符集编码
MySQL字符集编码总结 之前内部博客上凯哥分享了一篇关于mysql字符集的文章,之前我对mysql字符集一块基本没有深究过,看到凯哥文章后有些地方有点疑惑,遂自己去看了mysql的官方文档,并參考了 ...
- mysql字符集问题,及排序规则
字符集问题: 基本概念 • 字符(Character)是指人类语言中最小的表义符号.例如’A'.’B'等:• 给定一系列字符,对每个字符赋予一个数值,用数值来代表对应的字符,这一数值就是字符的编码(E ...
- MySQL字符集 GBK、GB2312、UTF8区别 解决 MYSQL中文乱码问题 收藏 MySQL中涉及的几个字符集
MySQL中涉及的几个字符集 character-set-server/default-character-set:服务器字符集,默认情况下所采用的.character-set-database:数据 ...
- MySQL字符集与排序规则总结
字符集与排序规则概念 在数据库当中都有字符集和排序规则的概念, 很多开发人员甚至包括有些DBA都会将这个混淆,当然这个情况也有一些情有可原的原因.一来两者本来就是相辅相成,相互依赖关联: 另外一方 ...
随机推荐
- Redis 3.2.4集群实战
一.Redis Cluster集群设计Redis集群搭建的方式有多种,例如使用zookeeper等,但从redis3.0之后版本支持Redis-Cluster集群,Redis-Cluster采用无中心 ...
- [Python]可变类型,默认参数与学弟的困惑
一.学弟的困惑 十天前一个夜阑人静.月明星稀的夜晚,我和我的朋友们正在学校东门的小餐馆里吃着方圆3里内最美味的牛蛙,唱着最好听的歌儿,畅聊人生的意义.突然,我的手机一震,气氛瞬间就安静下来,看着牛蛙碗 ...
- postman环境变量 全局变量清理
一:主要内容 清除一个环境变量.全局变量 清除全部环境变量.全局变量 清除部分环境变量.全局变量 二:清除一个指定环境变量.全局变量 1. 清除一个环境变量,如清除用户名环境变量,username为变 ...
- layer插件学习——提示层
本文是自己整理的关于layer插件的提示层的结果 一.准备工作 下载jQuery插件和layer插件,并引入插件(注意:jQuery插件必须在layer插件之前引用) 百度云资源链接: jQuery插 ...
- BFS算法(——模板习题与总结)
首先需要说明的是BFS算法(广度优先算法)本质上也是枚举思想的一种体现,本身效率不是很高,当数据规模很小的时候还是可以一试的.其次很多人可能有这样的疑问,使用搜索算法的时候,到底选用DFS还是BFS, ...
- zoj 2723 Semi-Prime(素筛打表+搜索优化)
题目链接: http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemCode=2723 题目描述: Prime Number Definitio ...
- java多线程框架
JDK5中的一个亮点就是将Doug Lea的并发库引入到Java标准库中.Doug Lea确实是一个牛人,能教书,能出书,能编码,不过这在国外还是比较普遍的,而国内的教授们就相差太远了. 一般的服务器 ...
- java设计模式-----20、模板方法模式
概念: Template Method模式也叫模板方法模式,是行为模式之一,它把具有特定步骤算法中的某些必要的处理委让给抽象方法,通过子类继承对抽象方法的不同实现改变整个算法的行为. 模板方法模式的应 ...
- js中Date 方法
Date (对象) Date 对象能够使你获得相对于国际标准时间(格林威治标准时间,现在被称为 UTC-Universal Coordinated Time)或者是 Flash 播放器正运行的操作系统 ...
- linux下lamp环境修改网站根目录
Apache默认的网站目录是在/var/www/html,我们现在要把网站目录更改成 /var/www 目录下,操作如下: 1.修改httpd,conf文件 vi /etc/httpd/conf/ht ...