Unicode标准以及其常见的编码方案
Unicode标准为每一个字符提供一个唯一的数字,而不用区分平台、语言等因素。
The Unicode Standard provides a unique number for every character, no matter what platform, device, application or language.
基本概念
在开始学习之前,我们需要先了解本文所涉及到的一些基本概念。
抽象字符(Abstract character):用于组织、控制或者表示文本数据的信息单元。
- 抽象字符没有具体的形式,不应与图像字符(glyph)混淆。
- 抽象字符不一定对应于人们所认知的“字”,不应与字素(grapheme)混淆。
- 不能被Unicode标准直接编码的抽象字符通常可以通过组合字符序列来表示。
抽象字符序列(Abstract character sequence):一个或多个抽象字符的有序序列。
Unicode编码空间(Unicode codespace):十六进制0x0~0x10FFFF之间的整数。
码位(Code point):Unicode编码空间中的任意值。
编码字符(Coded character):当抽象字符被映射或者分配到编码空间中特定的码位时,它就被称为编码字符。
码位
码位是Unicode标准中很重要的一个概念。它的取值范围是十六进制的0x0~0x10FFFF
,换算成十进制是0~1114111,共计1114112个。
需要注意的是,一个单一的抽象字符可能对应一个以上的码位。例如,Ω
既可以表示大写的希腊字母Omega,码位是U+03A9
,也可以表示物理学中的欧姆符号,码位是U+2126
。
>>> '\u03a9'
'Ω'
>>> '\u2126'
'Ω'
单个抽象字符也可以由一系列码位的序列来表示。例如,é
的码位是U+00E9
,它也可以由小写字母e
(码位为U+0065
)和 ́
(Combining Acute Accent)(码位为U+0301
)组合而成。
>>> '\u00e9'
'é'
>>> '\u0065\u0301'
'é'
在Unicode标准中,码位的表示方法通常是使用它们的十六进制,并加上U+
前缀。
码位的类型
码位的分类方法多种多样。我们通过下表来阐明Unicode标准使用的七种类型和一些术语。
基本类型 | 简要描述 | 是否分配给抽象字符 | 码位范围 |
---|---|---|---|
图形(Graphic) | 字母、标记、数字、标点符号、符号和空格 | 是 | |
格式(Format) | 不可见但是影响相邻字符。包括行、段落分割符 | 是 | |
控制(Control) | Unicode标准以外的协议或标准定义的用法 | 是 | U+0000~U+001F,U+007F,U+0080~U+009F,共计65个 |
私用(Private-use) | Unicode标准以外的私有协议定义的用法 | 是 | |
代理 (Surrogate) | 永久预留给UTF-16编码方案 | 不允许分配 | U+D800~U+DFFF,共计2048个 |
非字符(Noncharacter) | 永久预留给内部使用 | 否 | U+FDD0~U+FDEF,所有以FFFE或者FFFF结尾的码位,共计66个 |
保留(Reserved) | 预留给将来使用 | 否 |
我们需要格外注意代理(Surrogate)类型,理解他有助于我们学习UTF-16。它总共包含2048个码位,码位空间为U+D800~U+DFFF。它由引发出两个新的概念:
高位代理(High-Surrogate):U+D800~U+DBFF范围内的码位,共计1024个。
低位代理(Low-Surrogate):U+DC00~U+DFFF范围内的码位,共计1024个。
关于它们更多的内容,稍后结合UTF-16再讨论。
编码方案
在介绍具体的编码方案之前,我们先明确一些新的基本概念。
Unicode标量值(Unicode scalar value):除去高位代理和低位代理之外,所有的Unicode码位,也就是U+0000~U+D7FF和U+E000~U+10FFFF范围内的码位。
编码单元(Code unit):最小的比特位组合,表示用于交换或处理的编码文本单元。Unicode标准中定义,UTF-8使用8比特的编码单元,UTF-16使用16比特的编码单元,UTF-32使用32比特的编码单元。
编码单元序列(Code unit sequence):一个或多个编码单元的有序序列。
UTF-32
UTF-32将每个Unicode标量值映射成一个无符号的32比特的编码单元,数值与Unicode标量值相同,这是一种定长的编码方案。
注意,UTF-32无法编码U+D800~U+DFFF之间的码位,因为它们不属于Unicode标量值。
>>> '\ud800'.encode('utf32')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'utf-32' codec can't encode character '\ud800' in position 0: surrogates not allowed
UTF-16
UTF-16将Unicode标量值中U+0000~U+D7FF
和U+E000~U+FFFF
范围内的码位映射成一个无符号的16比特的编码单元,数值与Unicode标量值相同。将U+10000~U+10FFFF
范围内的码位映射成一个代理对,所谓的代理对就是上文提到的高位代理和低位代理。UTF-16是一种定长和变长兼顾的编码方案。
下表阐明了UTF-16的编码方式。
Unicode标量值 | UTF-16 |
---|---|
xxxx xxxx xxxx xxxx | xxxx xxxx xxxx xxxx |
000u uuuu xxxx xxxx xxxx xxxx | 1101 10ww wwxx xxxx 1101 11xx xxxx xxxx |
其中, wwww = uuuuu - 1
重点分析使用代理对的情况,一个代理对包含一个高位代理编码单元和一个低位代理编码单元,都是16比特的。其中高位代理的范围是U+D800~U+DBFF,转换成二进制,它的格式应该是1101 10xx xxxx xxxx,低位代理的范围是U+DC00~U+DFFF,转换成二进制,它的格式应该是1101 11xx xxxx xxxx。
至此,我们还剩下20位可以填充。我们将码位减去U+10000,再从右到左依次填充进去,就能得到UTF-16的编码。
以字符 Unicode编码方案概述 1. 前面讲过,随着计算机发展到世界各地,于是各个国家和地区各自为政,搞出了很多既兼容ASCII但又互相不兼容的各种编码方案.这样一来同一个二进制编码就有可能被解释成不 ... 转(http://www.codeceo.com/article/java-string-ansi-unicode-bmp-utf.html#0-tsina-1-10971-397232819ff9a ... [梁海的回答(99票)]: 简答.一些细节暂无精力查证,如果说错了还请指出. 一句话建议:涉及兼容性考量时,不要用记事本,用专业的文本编辑器保存为不带 BOM 的UTF-8. * * * 如果是为了跨 ... 参考:Python常见字符编码 + Python常见字符编码间的转换 一.Python常见字符编码 字符编码的常用种类介绍 第一种:ASCII码 ASCII(American Standard Cod ... 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节".再后来,他们又做了一些可以处理这 ... 转自http://dengo.org/archives/901 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称 ... ASCII.Unicode.GBK和UTF-8字符编码的区别联系 转载自:http://dengo.org/archives/901 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同 ... http://dengo.org/archives/901 这是我看过的最好的一篇讲述编码的文章 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到 ... 计算机编码指电脑内部代表字母或数字的方式,常见的编码方式有:ASCII编码,GB2312编码(简体中文),GBK,BIG5编码(繁体中文),ANSI编码,Unicode,UTF-8编码等. 1.ASC ... 工作中经常会遇到一些pdf文件处理的问题,一千种pdf有一千种处理方式,每次都是绞尽脑汁和这些pdf战斗到底. 本人又是一个gopher,所以这篇文章会以一个goper的视角,列举一下我所经历过的每一 ... 事件第二篇:https://www.cnblogs.com/FavoriteMango/p/11731485.html 曾经面试碰到一道设计题: 现有一个人,一群鸟,人有一把手枪,当人开枪时,所有的鸟 ... 介绍 大家好,本系列带你踏上Web 3D编程之旅- 本系列是实战类型,从0开始带领读者写出"良好架构.良好扩展性.最小功能集合(MVP)" 的3D引擎. 本系列的素材来自我们的产品 ... 正解:$kruscal$重构树 解题报告: 传送门$QwQ$ 语文不好选手没有人权$TT$连题目都看不懂真的要哭了$kk$ 所以先放个题目大意?就说给定一个$n$个点,$m$条边的图,每条边有长度和海 ... 首先照例说明一下缓存的作用以及Django中可以用到的缓存方式: 缓存的作用是用于数据项的再次加载,在设定的时间内可以无压力刷新或者再次访问该数据信息 方式一数据库缓存(Django原生的---有代码 ... 前言 DOSBox是一款在windows系统运行DOS程序的环境模拟器.可以解决在64位机中汇编程序编译调试等问题. 本文以 DOSBox 0.74 为例,汇编编译程序采用MASM6. 第一步下载相关 ... 如果某个数 K 的平方乘以 N 以后,结果的末尾几位数等于 K,那么就称这个数为"N-自守数".例如 3×92^2 =25392,而 25392 的末尾两位正好是 92,所以 ... 先去EMQ官网下载安装包 https://www.emqx.io/downloads#broker 注意:此处一定不能下错成企业版的,不然EMQ会由于缺少企业license无法启动服务 解压到任意路径 ... 1.看当前cmake版本 cmake --version 2.卸载旧版本下的cmake apt-get autoremove cmake 3.安装新版面cmake http://www.cnblogs ... 一.前言 上一篇<asp.net core 3.x 通用主机原理及使用>扯了下3.x中的通用主机,刚好有哥们写了篇<.NET Core 3.1和WorkerServices构建Win ...
Unicode标准以及其常见的编码方案的更多相关文章
随机推荐