描述

The Unicode 字符集使用的是 16 位(双字节)码。最普遍的 Unicode 编码方法( UCS-2) 由一个 16 位双字序列组成。这样的字符串中包括了的一些如‘\0’或‘/’这样的在文件名中或者是在 C 库函数中具有特殊意义的字符。另外,如果没有做重大的修正的话,大部分操作 ASCII 码文件的 UNIX 工具不能够正确识别 16 位的字符。因此, UCS-2 对于 Unicode 的文件名、文本文件、环境变量等等来说并不是一种合适的外部编码方式。 ISO 10646 Universal Character Set (UCS), 是 Unicode 的超集,甚至使用了 31 位编码方式,另外还有使用 32 编码的 UCS-4 也有同样上述的问题。 UCS-4 而用 UTF-8Unicode UCS 编码就不会存在这样的问题。所以,UTF-8 很明显的是在 UNIX 类操作系统下的 Unicode 字符集的解决方案。

属性

UTF-8 编码具有以下优良属性:

*
UCS 字符从 0x00000000 到 0x0000007f (传统的 US-ASCII 字符)简单地编码为字节 0x00 到 0x7f (与 ASCII 码兼容)。这意味着只包含 7 位 ASCII 字符的文件和字符串在 ASCIIUTF-8. 编码方式下是完全一样的。
*
所有大于 0x7f 的 UCS 字符被编码成为多字节序列。该序列全部是由 0x80 到 0fd 的字符组成,这样就不会有标准 ASCII 字符会被作为某个字的一个部分这种现象出现,对于‘\0’和‘’这样的特殊字符来说也就不会有问题了。
*
保留了 UCS-4 字典中的字节串的排列顺序。
*
所有 2^32 次方的 UCS 码都能够使用 UTF-8 来进行编码。
*
0xfe 和 0xff 两个字符在 UTF-8 中不会被用到。
*
表示非 ASCII 码的 UCS 多字节串的开始字符总是 0xc0 到 0xfd 之间的字符,并会指出该串的长度。多字节串的其他字符都是 0x80 到 0xbf 之间的字符。这使得再同步非常简单,并令编码是无态的,丢字节现象也不容易发生。
*
UTF-8 编码的 UCS 字符可以增加到 6 个字节的长度。而 Unicode 只能增加到 3 个字节长。由于 Linux 只使用 16 位的 UnicodeUCS 的子集。所以在 Linux 下, UTF-8 多字节串长度最多不会超过三个字节。

编码方式

下面的字节串用来表示一个字符。用什么串依照该字符在 UCS 编码中的序号来定:

0x00000000 - 0x0000007F:
0xxxxxxx
0x00000080 - 0x000007FF:
110xxxxx 10xxxxxx
0x00000800 - 0x0000FFFF:
1110xxxx 10xxxxxx 10xxxxxx
0x00010000 - 0x001FFFFF:
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
0x00200000 - 0x03FFFFFF:
111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
0x04000000 - 0x7FFFFFFF:
1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

这里 xxx 的位置二进制位形式的字符编码填入。只用最短的那个足够表达一个字符编码数的多字节串。

举例说明

Unicode 字符 0xa9 = 1010 1001 (版权所有的符号) 在 UTF-8 中被编码为:

11000010 10101001 = 0xc2 0xa9

字符0x2260 = 0010 0010 0110 0000 (“不等于”符号)被编码为:

11100010 10001001 10100000 = 0xe2 0x89 0xa0 

UTF-8 - ASCII 兼容的多字节 Unicode 编码的更多相关文章

  1. ASCII 、UTF-8、Unicode编码

    1.各种编码的由来 1.1.计算机编码的由来 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.所以只能是用一些数字来表示文本,这就是编码的由来.最早的计算机在设计时采用8个比 ...

  2. 转载:谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词

    转载: 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词 这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级 ...

  3. 谈谈Unicode编码,简要解释UCS、UTF、BMP、BOM等名词

    这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级.整理这篇文章的动机是两个问题: 问题一: 使用Windows记事本的“另存为 ...

  4. 字符编码的故事:ASCII,GB2312,Unicode,UTF-8,UTF-16

    http://blog.csdn.net/longintchar/article/details/51079340 ****************************************** ...

  5. ASCII\UNICODE编码的区别

    前几天,Google给我Hotmail邮箱发了封确认信.我看不懂,不是因为我英文不行,而是"???? ????? ??? ????"的内容让我不知所措.有好多程序员处理不好编码问题 ...

  6. Unicode编码,解释UCS、UTF、BMP、BOM等名词

    (转载 谈谈Unicode编码,简要解释UCS.UTF.BMP.BOM等名词 这是一篇程序员写给程序员的趣味读物.所谓趣味是指可以比较轻松地了解一些原来不清楚的概念,增进知识,类似于打RPG游戏的升级 ...

  7. 字符编码的故事(ASCII,ANSI,Unicode,Utf-8区别)转载

    http://www.imkevinyang.com/2009/02/字符编解码的故事(ascii,ansi,unicode,utf-8区别).html 很久很久以前,有一群人,他们决定用8个可以开合 ...

  8. VS2010与VS2013中的多字节编码与Unicode编码问题

    1. 多字节字符与单字节字符 char与wchar_t 我们知道C++基本数据类型中表示字符的有两种:char.wchar_t.  char叫多字节字符,一个char占一个字节,之所以叫多字节字符是因 ...

  9. 学习:多字节编码(ANSI)和UNICODE编码的关系

    Windows 既可以使用 Unicode 字符集又可以使用传统的字符集(如多字节编码)来实现对多种语言的支持,以适应国际市场的要求.与传统的字符集编码相比,Unicode 是世界通用的字符编码标准, ...

随机推荐

  1. android service 样例(电话录音和获取系统当前时间)

    关于android service 的具体解释请參考: android四大组件--android service具体解释.以下将用两个实例具体呈现Android Service的两种实现. 一个是st ...

  2. Neo4J(Cypher语句)初识

    欢迎各路大神临幸寒舍 以下节点标签为people,friend,用户自己也可以设置成其他标签,查询时需要用到标签.这个标签可以类比为关系数据库中的表名 创建节点.关系 创建节点(小明):create ...

  3. 算法竞赛模板 AC自动机

    AC自动机基本操作 (1) 在AC自动机中,我们首先将每一个模式串插入到Trie树中去,建立一棵Trie树,然后构建fail指针. (2) fail指针,是穿插在Trie树中各个结点之间的指针,顾名思 ...

  4. Docker拉取镜像时错误解决办法

    拉取docker中的镜像时报错: [root@master ~]# docker pull docker.io/centos:latest Trying to pull repository dock ...

  5. Linux系统关闭对ping命令做响应。

    1.测试 ping 192.168.10.5 可以正常ping通, 2,修改 /proc/sys/net/ipv4/icmp_echo_ignore_all  文件的值=1 3.在测试 已经ping不 ...

  6. 【TJOI2018】教科书般的亵渎

    题面 题目描述 小豆喜欢玩游戏,现在他在玩一个游戏遇到这样的场面,每个怪的血量为\(a_i\),且每个怪物血量均不相同,小豆手里有无限张"亵渎".亵渎的效果是对所有的怪造成11点伤 ...

  7. elasticsearch依赖的jackson-jar包与jboss依赖的jackson-jar包“版本”冲突

    elasticsearch依赖的jackson-jar包与jboss依赖的jackson-jar包“版本”冲突,导致elasticsearch相关功能在本地tomcat服务器正常,但是部署到jboss ...

  8. html常用标签梳理

    标签的语法 标签由英文尖括号<和>括起来,如<html>就是一个标签. html中的标签一般都是成对出现的,分开始标签和结束标签.结束标签比开始标签多了一个/. 如: (1)& ...

  9. [NOIP]模拟17 题解

    A.入阵曲 部分分很肥,正解写得常数稍大就会和暴力一个分,考试的时候写什么自己考虑.(滑稽 部分分的循环边界手抖写错了-25 (原本暴力分中的10分都没了啊啊啊) 没写挂的话应该有75,其实就是二维前 ...

  10. [bzoj2729][HNOI2012]排队 题解 (排列组合 高精)

    Description 某中学有 n 名男同学,m 名女同学和两名老师要排队参加体检.他们排成一条直线,并且任意两名女同学不能相邻,两名老师也不能相邻,那么一共有多少种排法呢?(注意:任意两个人都是不 ...