C++中宽字符类型(wchar_t)的编码
转载自: http://www.ituring.com.cn/article/111027
问题的起因是和一个朋友讨论不同编码的转换问题,说到了wchar_t的类型,朋友的看法是,wchar_t的编码方式是utf-16,长度一定是16位的。我的看法不同,我认为wchar_t的长度和编码方式都是编译器和平台决定的,和语言没任何关系。
后来这个朋友为了说服我,回家把C++ Primer给我搬出来了,还给我截了个图(因为我没这本书),在这本书第30页有个表格,清楚地写着wchar_t是unicode字符,而最小尺寸是16。既然“最小尺寸是16”了,那么其他尺寸的可能性就有了,但是编码方式是怎么回事?因为凭我印象,貌似没有任何文档规定过宽字符的编码方式,我想说服我朋友,但脑子里有没有证据,不知道从何说起,因此回家仔细查了查资料,算是有了个了解。
1. 宽字符的编码方式到底是谁定的?
这里有两个选择,要么是C++语言标准,要么是编译器作者设计的;若是前者,则编码方式就没有异议了,任何平台、任何编译器,都应该一样;但若是后者,这就完全取决于编译器制作者的想法了。那么,C++中,到底是什么情况?
我们可以翻阅下C++ ISO 2003的文档,在3.91章第五条,清楚地写着wchar_t的定义如下:
Type wchar_t is a distinct type whose values can represent distinct codes for all members of the largest extended character set specified among the supported locales (22.1.1). Type wchar_t shall have the same size, signedness, and alignment requirements (3.9) as one of the other integral types, called its underlying type.
从这段描述中可以得出几个结论:1. wchar_t是用来存储所有支持区域的字符的;2. wchar_t的底层存储方式是整形,本质上也就是个整形。
其实不论是char还是wchar_t,底层的存储都是整形,因此即使你存了个字符进去,仍然会以整形的形式存储,所以这里面涉及到了一个转化问题,也就是我们所谈的字符编码。
而编码方式在以上的C++ ISO文档里并找不到文字说明,因此,可以确定,编码方式是编译器实现的,并且是没有标准的。
那么,就引出了第二个问题。
2. 编码方式有几种?宽字符存储的长度一样吗?
先从char说起,char型的常见编码方式是ASCII,ASCII编码是一种基于8位二进制数的字符编码算法,是美国ANSI制定的一种单字符编码方案,能表示256种可能的字符,常见的字母、符号、键盘指令等,全能用ASCII码表示,而由于ASCII码是基于8位的编码,因此用这种算法的编译器,char类型都占8位。请注意因果关系,是因为用了ASCII,所以char才是8位,而不是char是8位,所以采用ASCII。
同理可适用于wchar_t类型。
wchar_t的出现,是出于程序兼容多语言的需求,因为在很多语言中,字符的数量远远大于256,因此需要把原字符进行扩容,必须能表示更多的字符类型。因此wchar_t出现了,wchar_t全称是wide character type,也就是宽字符。最常见的宽字符编码方式就是unicode了,utf-16和utf-32都是unicode编码。wchar_t也主要以这两种方式实现。
utf-16是完全基于ucs-2的,但存储的方式分为Big Endian和Little Endian,区别在于存储的顺序,比如字符A用utf-16BE的方式表示是0x0041,用utf-16LE的方式表示则是0x4100,我在我的机器上试了下,用VC10编译器,wchar_t的编码方式是utf-16BE。而在gcc下是utf-32BE。
关于各种的编码算法,资料繁多,我就不多说了。
但这个问题是解决了,那就是,wchar_t的目的是编码并存储所有字符集,编码方式和存储空间大小和语言无关,只和编译器有关,因此说wchar_t的编码方式是unicode是错的。C++ Primer上的描述也是不准确的。
哦,对,最后补充一下,unicode是兼容ASCII的,ASCII所能表示的字符,用unicode编码可以得出一样的值。但不兼容GBK(也就是中文编码),如果混用两种方式编码的字符串,需要开发者手动去转换。
C++中宽字符类型(wchar_t)的编码的更多相关文章
- java中的字符,字节和编码
1. 编码问题的由来,相关概念的理解 1.1 字符与编码的发展 从计算机对多国语言的支持角度看,大致可以分为三个阶段: 系统内码 说明 系统 阶段一 ASCII 计算机刚开始只支持英语,其它语言不 ...
- pandas将字段中的字符类型转化为时间类型,并设置为索引
假设目前已经引入了 pandas,同时也拥有 pandas 的 DataFrame 类型数据. import pandas as pd 数据集如下 df.head(3) date open close ...
- 04Windows中的字符类型
1. Windows 中常用的数据类型定义 //WinNt.h中定义 typedef unsigned short wchar_t; //A 16-bit character typedef char ...
- Javascript中的string类型使用UTF-16编码
2019独角兽企业重金招聘Python工程师标准>>> 在JavaScript中,所有的string类型(或者被称为DOMString)都是使用UTF-16编码的. MDN DOMS ...
- 宽字符wchar_t和窄字符char——putwchar、wprintf
宽字符wchar_t 与 窄字符char 先说下窄字符char,这个大部分读者应该很清楚,char类型的变量占一个字节(byte)(也就是8个bit(比特)),能表示256个字符,那char的范围有两 ...
- 彻底弄懂UTF-8、Unicode、宽字符、locale
目录 Unicode.UCS UTF8 宽字符类型wchar_t locale 为什么需要宽字符类型 多字节字符串和宽字符串相互转换 最近使用到了wchar_t类型,所以准备详细探究下,没想到水还挺深 ...
- [转帖]彻底弄懂UTF-8、Unicode、宽字符、locale
彻底弄懂UTF-8.Unicode.宽字符.locale linux后端开发 已关注 彻底弄懂UTF-.Unicode.宽字符.locale unicode 是字符集 utf-8是编码格式.. ...
- C++ 宽字符(wchar_t)与窄字符(char)的转换
了解 长度 宽字符wchar_t的长度16位,可以用来显示中文等除英文外的其他文字, 窄字符 char 的长度 8 位,只能处理英文. 哪里可以见到 在VS2010, 2012, 2013 ...
- Python学习笔记 (2.2)Python中的字符编码问题及标准数据类型之String(字符串)
Python3中的String类型 首先,Python中没有字符类型,只有字符串类型.单个字符按照长度为1的字符串处理,这对于曾是OIER的我来说有点不适应啊. 字符串的表示方法 最常用的就是用一对双 ...
随机推荐
- prefixspan python
from:https://github.com/chuanconggao/PrefixSpan-py API Usage Alternatively, you can use the algorith ...
- Charles设置HTTPS抓包
1. 配置 Charles 根证书 点击 Help -> SSL Proxying -> Install Charles Root Certificate 之后会弹出钥匙串,如果不弹出,请 ...
- python_6
set 集合 {} 无序 s = {1,2,3,4,5} s = {}print(type(s)) # 空{}就是字典 s = {1,2,3,4,5}s = {1,2,3,'22','ss',Fals ...
- ef core code frist
https://docs.microsoft.com/zh-cn/ef/core/get-started/aspnetcore/new-db?view=aspnetcore-2.1 1.先创建对应的实 ...
- 获取进程ID,父进程ID,进程完整路径
准备写一个进程管理的功能模块,今天下午先写了扫描获取本机各个进程路径,获取各个进程映像名称,进程完整路径. 要获取进程信息,第一步想到的就是提权,提权代码用过多次了,今天也小结了一下(http://w ...
- Android开发 ---多线程操作:Handler对象,消息队列,异步任务下载
效果图: 1.activity_main.xml 描述:定义了六个按钮 <?xml version="1.0" encoding="utf-8"?> ...
- JavaWeb基础-servlet
Servlet简介 Sun公司在其API中提供了一个servlet接口,用户若想用发一个动态web资源(即开发一个Java程序向浏览器输出数据),需要完成以下2个步骤: 1.编写一个Java类,实现s ...
- [IntelliJ IDEA入门] 新建一个Java项目
新建一个Project 是否有JDK配置 选择JavaEE 点击Next 项目路径和文件 .idea (directory based) 创建项目的时候自动创建一个 .idea 的项目配置目录来保存项 ...
- 开始一个django项目的流程
1.明确开发站点的主题,(即此站点的作用), 确定站点的各种功能,需求. 2.优先设计数据库. 数据库的设计要合理,不能想当然的设计,最好能够以表格的形式展现出来,避免以后遗忘,也避免内容的重复. 3 ...
- 通过pid杀死进程
bool ****::KillProcess(DWORD pid) { // When the all operation fail this function terminate the " ...