计算机只能处理二进制,因此需要把文字表示为二进制才能被计算机理解和识别。
一般的做法是为每一个字母或汉字分配一个id,然后用二进制表示这个id,存在内存或磁盘中。计算机可以根据二进制数据知道这个id是什么,然后再根据id来知道二进制数据表示的是什么字母或汉字。
Unicode做的事情是为每一个字母或汉字分配id。
UTF-8、UTF-16、UTF-32是三种把Unicode 的code point表示为二进制的方法,一般我们称之为编码格式。

Unicode Standard包括哪些字符(Characters)

Unicode标准为所有的主流语言的字符指定了码位,包括西欧、中东、东亚的很多语言。此外,还包括标点符号、变音符号、数学符号、科技符号、箭头、装饰符号、emoji等。
最常用的字符在最起始的64K个code point中,这部分codespace叫做基本多语言平面(basic multilingual plane),简称BMP。除此之外,还包括16个其他的supplementary planes供其他字符使用。
Unicode为个人保留了一些code point,厂商或个人可以指定自己的字符或符号。在BMP中有6400个private的code point,在supplementary plane有131,068个保留的code point。

编码格式

即把code point编码为二进制的方法。
先看下code unit的概念。

The minimal bit combination that can represent a unit of encoded text for processing or interchange. The Unicode Standard uses 8-bit code units in the UTF-8 encoding form, 16-bit code units in the UTF-16 encoding form, and 32-bit code units in the UTF-32 encoding form.

  • UTF-8
    把Unicode字符表示为变长的比特,和ASCII码完美兼容。也就是说对于ASCII码,用一个字节表示,其他字符用2个或者更多个字节表示。code unit的长度是8bit。
  • UTF-16
    常用与存储空间和获取字符效率需要取得平衡的场景。常用的字符用16bit(一个code unit)编码,其他的用一对code unit编码(pairs of 16-bit code units)。
  • UTF-32
    用户存储空间不是问题,需要等宽的code unit的场景。每一个Unicode字符被表示为32bit。

定义文本的元素(Defining Elements of Text)

文本的组成元素在不同的场景下有所不同。比如在历史上的西班牙语,“ll”是一个单独的元素,但是当这个字符在输入时,“ll”是两个“l”的组合。
Unicode定义了code elements(通常意义的“characters”),即用于计算机文本处理的基本元素。在上面的例子中,把两个“l”合并为一个“ll”是文本处理软件的事情。

字符序列(Character Sequences)

有时候,text element可以由多个character表示,这些多个character组成的序列叫做combining character sequences
比如说“â”可以表示为 “a”和“^”的组合。Unicode定义了这些组合的顺序,一般是基本的字符“a”在前,紧跟着一个non-spacing(不占空间?)的符号“^”。
一些字符按顺序排列可以表示一个单独的字符,叫做precomposed charactercomposite characterdecomposable character。比如“ü”有一个单独的code point U+00FC,也可以表示为基本字母“u”(U+0075)后跟着一个non-spacing字符“¨”(U+0308)。这样子便于排序,因为有时候字母的变形并不影响排序。
也就是说,一个字符有多个表示方法,Unicode又给出了判断字符是否相等的方法。

Programs should always compare canonical-equivalent Unicode strings as equal (For the details of this requirement, see Section 3.2, Conformance Requirements and Section 3.7, Decomposition, in The Unicode Standard). One of the easiest ways to do this is to use a normalized form for the strings: if strings are transformed into their normalized forms, then canonical-equivalent ones will also have precisely the same binary representation. The Unicode Standard provides well-defined normalization forms that can be used for this: NFC and NFD.

参考

The Unicode® Standard: A Technical Introduction
Unicode equivalence wiki
CANONICAL EQUIVALENCE IN APPLICATIONS
FAQ Normalization

Unicode简介的更多相关文章

  1. Windows程序设计(第五版)学习:第二章 Unicode简介

    第二章 Unicode简介 1,Windows通过双字节技术DBCS解决这个问题,代码页定义不同的字符集,称为ANSI字符集,比如日文为CP932,韩文为CP949,繁体中文为CP950,简体中文为C ...

  2. Windows程序设计--(二)Unicode 简介

    2.2 宽字符和C语言 2.2.2 更宽的字符 在C语言中的宽字符正是基于short型数据的, 这一数据类型在头文件WCHAR.H中的定义为: typedef unsigned short wchar ...

  3. 第二章 Unicode简介

    /*------------------------------------------------------------- screensize.cpp -- Displays screen si ...

  4. unicode 编码总结

    unicode简介: unicode又称为unicode character set,缩写为ucs,意为字符集.编码方式有utf-7,utf-8,utf-16,utf-32几种,常用的是utf-8和u ...

  5. UNICODE编码表

    UNICODE简介 Unicode(统一码.万国码.单一码)是一种在计算机上使用的字符编码.Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进 ...

  6. Unicode、UTF-8、UTF-16 终于懂了

    计算机起源于美国,上个世纪,他们对英语字符与二进制位之间的关系做了统一规定,并制定了一套字符编码规则,这套编码规则被称为ASCII编码 ASCII 编码一共定义了128个字符的编码规则,用七位二进制表 ...

  7. Python 编码简单说

    先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ...

  8. Java 中文字符判断 中文标点符号判断

    Java Character 实现Unicode字符集介绍  CJK中文字符和中文标点判断 主要内容: 1. Java Character类介绍: 2. Unicode 简介及 UnicodeBloc ...

  9. [十一]基础数据类型之Character

    Character与Unicode Character 基本数据类型char  的包装类 Character 类型的对象包含一个 char 类型的字段   该类提供了几种方法来确定字符的类别(小写字母 ...

随机推荐

  1. SQL Server的AlwaysOn错误19456和41158

    SQL Server的AlwaysOn错误19456和41158 最近在公司搞异地数据库容灾,使用AlwaysOn的异地节点进行数据同步,在搭建的过程中遇到了一些问题 软件版本 SQL Server2 ...

  2. Jexus服务器SSL二级证书安装指南

    申请获得服务器证书有三张,一张服务器证书,二张中级CA证书.在Android微信中访问Https,如果服务器只有一张CA证书,就无法访问. 获取服务器证书中级CA证书: 为保障服务器证书在客户端的兼容 ...

  3. 《MSSQL2008技术内幕:T-SQL语言基础》读书笔记(上)

    索引: 一.SQL Server的体系结构 二.查询 三.表表达式 四.集合运算 五.透视.逆透视及分组 六.数据修改 七.事务和并发 八.可编程对象 一.SQL Server体系结构 1.1 数据库 ...

  4. Windbg Extension NetExt 使用指南 【1】 ---- NetExt 介绍

    摘要 : 在使用WINDBG做debugging的时候,需要一个好的工具帮助进行数据分析. 最常见的extension包括SOS, PSSCOR.  NetExt则是另外一种提供了丰富命令功能的deb ...

  5. .NET 环境中使用RabbitMQ

    在企业应用系统领域,会面对不同系统之间的通信.集成与整合,尤其当面临异构系统时,这种分布式的调用与通信变得越发重要.其次,系统中一般会有很多对实时性要求不高的但是执行起来比较较耗时的地方,比如发送短信 ...

  6. 我的“第一次”,就这样没了:DDD(领域驱动设计)理论结合实践

    写在前面 插一句:本人超爱落网-<平凡的世界>这一期,分享给大家. 阅读目录: 关于DDD 前期分析 框架搭建 代码实现 开源-发布 后记 第一次听你,清风吹送,田野短笛:第一次看你,半弯 ...

  7. [APUE]不用fcntl实现dup2函数功能

    dup2的函数定义为: #include <unistd.h> int dup2(int src_fd, int new_fd); 自己实现dup2函数有几个关键点: 1,检查给定的源fd ...

  8. iOS-----程序异常处理----- 断言NSAssert()和NSParameterAssert区别和用处

    NSAssert和assert是断言,主要的差别是assert在断言失败的时候只是简单的终止程序,而NSAssert会报告出错误信息并且打印出来.所以尽管的使用NSAssert,可以不去使用asser ...

  9. 利用Docker技术实现UDP广播效果(网络编程python版)

    docker的安装见官方文档 我使用的系统为Ubuntu16.04 Ubuntu系统安装docker文档地址:https://docs.docker.com/engine/installation/l ...

  10. Git异常:fatal: could not create work tree dir 'XXX': No such file or directory

    GitHub实战系列汇总:http://www.cnblogs.com/dunitian/p/5038719.html ———————————————————————————————————————— ...