Unicode 与 utf8 utf16 utf32的关系

Unicode是计算机领域的一项行业标准，它对世界上绝大部分的文字的进行整理和统一编码，Unicode的编码空间可以划分为17个平面（plane），每个平面包含2的16次方（65536）个码位。17个平面的码位可表示为从U+0000到U+10FFFF，共计1114112个码位，第一个平面称为基本多语言平面（Basic Multilingual Plane, BMP），或称第零平面（Plane 0）。其他平面称为辅助平面（Supplementary Planes）。基本多语言平面内，从U+D800到U+DFFF之间的码位区段是永久保留不映射到Unicode字符，所以有效码位为1112064个。

Unicode的编码方式

unicode 只是一种字符码表，而在计算机中进行存储时，必须指定一种具体的存储方式。常见的如utf8, utf16, utf32

比如，对于英文字符A , 在unicode中的值是65, 其在计算机中存储时，使用utf8 utf16 utf32等不同格式存储时，是完全不同的。

utf8存储，在内存中就是0x41； utf16存储，在内存中就是0x0041 ; utf32存储，在内存中就是0x00000041

在windows编程中，字符格式通常有多字节(ansic)与宽字符(unicode)之分。很多时候，我们认为unicode就是用两个字符来表示英文字母，其实这是不准确的。因为windows中，默认的unicode编码方式就是utf16, 所以英文字符才是两个字节。

UTF-8(8-bit Unicode Transformation Format)

UTF-8是一种变长编码，对于一个Unicode的字符被编码成1至4个字节。Unicode编码与UTF-8的编码的对应关系:

Unicode编码	UTF-8编码(二进制)
U+0000 – U+007F	0xxxxxxx
U+0080 – U+07FF	110xxxxx 10xxxxxx
U+0800 – U+FFFF	1110xxxx 10xxxxxx 10xxxxxx
U+10000 – U+10FFFF	11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

一个字节的uft8表示的unicode 码范围为(0 ~0x7F)

两个字节长度的uft8 表示的unicode码范围为(0x80 ~ 0x07FF)

三个字节长度的uft8 表示的unicode码范围为(0x0800 ~ 0xFFFF)

四个字节长度的uft8 表示的unicode码范围为( 0x10000 ~ 0x10FFFF)

其中绝大部分的中文用三个字节编码，部分中文用四个字节编码，举例如下:

Unicode	字符	UTF-8编码
U+0041	A	0x41
U+7834	破	0xE7 0xA0 0xB4
U+6653	晓	0xE6 0x99 0x93
U+2A6A5	Unicode 与 utf8 utf16 utf32的关系的更多相关文章 Unicode与UTF-8/UTF-16/UTF-32的区别 Unicode的最初目标,是用1个16位的编码来为超过65000字符提供映射.但这还不够,它不能覆盖全部历史上的文字,也不能解决传输的问题 (implantation head-ache's),尤其在 ... 彻底搞懂字符编码(unicode,mbcs,utf-8,utf-16,utf-32,big endian,little endian...)[转] 最近有一些朋友常问我一些乱码的问题,和他们交流过程中,发现这个编码的相关知识还真是杂乱不堪,不少人对一些知识理解似乎也有些偏差,网上百度, google的内容,也有不少以讹传讹,根本就是错误的(例如说 ... 细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4 1. Unicode与ISO 10646 全世界很多个国家都在为自己的文字编码,并且互不想通,不同的语言字符编码值相同却代表不同的符号(例如:韩文编码EUC-KR中“한국어”的编码值正好是汉字编码GB ... 关于编码：Unicode/UTF-8/UTF-16/UTF-32 关于编码,绕不开下面这些概念 ①Unicode/UTF-8/UTF-16/UTF-32 ②大小端字节序(big-endian/little-endian) ③BOM(Byte Order Mark) ... 从字节理解Unicode（UTF8/UTF16) 如果你不知道或者不了解什么是Unicode/UTF8/UTF16,请详细阅读这篇文章(这也是这篇博文的先决条件): 学点编码知识又不会死:Unicode的流言终结者和编码大揭秘但是如果你看完以上文章 ... 编码（2）从字节理解Unicode（UTF8/UTF16) https://www.cnblogs.com/zizifn/p/4716712.html 从字节理解Unicode(UTF8/UTF16) 如果你不知道或者不了解什么是Unicode/UTF8/UT ... UTF-8, UTF-16, UTF-32 & BOM FAQ - UTF-8, UTF-16, UTF-32 & BOM http://www.unicode.org/faq/utf_bom.html General questions, rel ... UTF-8/UTF-16/UTF-32 UTF-8/UTF-16/UTF-32 一.UTF-8/UTF-16/UTF-32三者的区别二.BOM的检测与删除 1.用VIM去除<feff>,即 U+FEFF.注意:这是一个字符,而 ... 从C# String类理解Unicode（UTF8/UTF16) 上一篇博客:从字节理解Unicode(UTF8/UTF16).这次我将从C# code 中再一次阐述上篇博客的内容. C# 代码看UTF8 代码如下: string test = "UTF- ... 随机推荐 eclipse汉化链接百度百科 https://jingyan.baidu.com/article/4b07be3cb1864e48b380f315.html 博客园:http://blog.csdn.net/sunny_ ... IntelliJ IDEA中 todo的使用在代码的注释部分加入TODO 大小写忽略,如下图所示查看项目中有哪些待办项,所下图所示 SSM-Spring-10：Spring中cglib动态代理 ------------吾亦无他,唯手熟尔,谦卑若愚,好学若饥------------- 何为动态代理,就不扯皮了,上一篇博客刚刚提到,那cglib动态代理又怎么写,我拿个和上个例子相似的案例来写具 ... Linux时间子系统之（一）：时间的基本概念专题文档汇总目录 Notes:Linux时间基准点:Linux时间和broken-down time(struct tm):不同精度的时间表示time_t.timeval.timespec. 原文地址 ... 修改WordPress后台默认登陆地址提高网站安全性作者:荒原之梦原文链接:http://zhaokaifeng.com/?p=536 安装完WordPress后,默认的登陆地址就是: http://XXX.XXX/wordpress/wp-admi ... Markdown编辑器editor.md的使用---markdown上传图片 http://kindeditor.org/ 确定下有没有查找替换功能 http://pandao.github.io/editor.md/ http://pandao.github.io/edito ... 你应该知道的 5 个 Docker 工具你可以在网上找到大量炫酷的Docker 工具,并且大部分是开源的,可以通过Github访问.在过去的两年里,我开始在开发项目中大量使用Docker.当你开始使用Docker,你会发现它比你想象的还要适 ... [python]多线程模块thread与threading Python通过两个标准库(thread, threading)提供了对多线程的支持 thread模块 import time import thread def runner(arg): for i ... Oracle 重建控制文件一例环境:OEL 5.7 + Oracle 10.2.0.5 背景:在Oracle的运维过程中,时常会遇到一些场景是需要重建控制文件才可以解决的.本文的场景可以通过复制控制文件到新路径,运行一段时间后,再 ... 打开office时提示错误窗口“向程序发送命令时出现问题”的解决方案今天同事问了我一件很怪异的事情,说她的office打不开了,如打开word或excel时,突然出现错误提示错误窗口"向程序发送命令时出现问题",分析原因才知道她安装了 AVG pc ... 热门专题 django orm双下划线过滤方法 ajax 请求 put delete textarea旁边的按钮居中 mybatis -plus 插入后返回id android shape设置stroke颜色显示不出来 hadoop启动后无法打开web界面 js循环中更新进度条 odoo orm查询条件介于 ticwatch2开发版怎么启动nodejs工程 tesseract下载chi_sim语言错误惠普4230s升级CPU gltf node绘制顺序 ssh用cxf开发rest接口 elasticsearch-head能连接单节点吗 python选取dataset中的某一列 vs2013 qwt配置 postman后置处理tests office激活错误代码0x8007000d 符号常量的ASCII Home Powered By WordPress

Unicode 与 utf8 utf16 utf32的关系

Unicode的编码方式

UTF-8(8-bit Unicode Transformation Format)

Unicode 与 utf8 utf16 utf32的关系的更多相关文章

随机推荐

热门专题