wchar与char字符转换的探究

在Xcode 模拟器环境下。測试wchar_t与char的转换：

void convert_test()

{

    setlocale(LC_ALL, "zh_CN.UTF-8");

    char*    src_str = "中国";

    wchar_t* src_wstr = L"中国";

    char*    dest_str = malloc(32);

    wchar_t* dest_wstr = malloc(32);

    mbstowcs(dest_wstr, src_str, mbstowcs(NULL, src_str, 100));

    wcstombs(dest_str, src_wstr, wcstombs(NULL, src_wstr, 100));

    free(dest_str);

    free(dest_wstr);

}

这里遇到两个疑问：

1. 字符串存储时的编码格式由什么决定？

2. wcstombs()和mbstowcs()这两个函数对编码格式进行了什么样的转换？

当中。汉字"中“、“国”的编码例如以下：

GB2312
Unicode UTF-8

D6D0 4E2D E4 B8 AD 中

B9FA 56FD E5 9B BD 国

第1个问题，依据C/C++编译策略。字符串的编码方式由源文件格式决定（http://www.cppblog.com/lf426/archive/2010/06/25/118707.html）。我们来依据測试结果证实一下：

当源文件格式是UTF-8时：

[1] src_str 内存数据 : 0x0010139e: e4 b8 ad e5 9b bd 00 6c 65 6e 20 3d 20 25 64 0a .......len
= %d.

[2] src_wstr 内存数据: 0x00101abc: 2d 4e 00 00 fd 56 00 00 00 00 00 00 01 00 00 00 -N...V..........

当源文件格式是GB2312时：

[3] src_str在内存中的结果： 0x000b6906: d6 d0 b9 fa 00 6c 65 6e 20 3d 20 25 64 0a 00 63 .....len = %d..c

[4] GB2312的文件格式下，汉字无法以宽字符的格式保存。编译错误；

从上面的结果[1]中能够看到。在UTF-8格式源文件里，以char格式保存的字符串，从低到高是"e4 b8 ad e5 9b bd"，刚好是"中国"的UTF-8编码按字节由低到高存储的格式（不存在字节序的问题）；而[3]中能够看出， char字符串存储的刚好是"中国“的GB2312编码。与源文件格式一致，每字节分开保存（也不存在字节序的问题）。从[2]中能够看到，wchar_t格式的数据"2d 4e 00 00 fd 56 00 00"刚好是“中国”的Unicode编码，并且是小端格式。
因此。结论是当以char类型保存中文字符的时候，编码式由源文件的编码格式决定；而wchart_t类型的宽字符都以Unicode编码的方式保存；

第2个问题， C标准库函数mbstowcs()和wcstombs()对编码转换详细进行了什么操作？依据手冊，我们知道mbstowcs()将char类型的字符串转换成wchart_t类型的字符串，wcstombs()则相反。由于这两个函数依赖于本地化策略，所以须要先调用setLocale()，首先设置成"zh_CN.UTF-8"格式。得到转换后的数据:

[5] dest_str内存数据： 0x7a946520: e4 b8 ad e5 9b bd d8 01 00 00 93 7a 0d 00 93 7a ...........z...z

[6] dest_wstr内存数据：0x7a822b50: 2d 4e 00 00 fd 56 00 00 0e 42 6c 61 63 6b 5f 31 -N...V...Black_1

从[5]能够看到wcstombs()函数将宽字节表示的"中国"转换后的结果就是其UTF-8编码。 [6]中能够看出，mbstowcs()实际上将UTF-8表示的”中国“转换成了其相应的Unicode编码; 这正好是字符在char类型下的编码方式与wchar_t类型下的编码方式间的相互转换。

（转载请注明出处：http://blog.csdn.net/codigger/article/details/40711103）

wchar与char字符转换的探究的更多相关文章

自己写unicode转换ascii码，wchar*到char*
对于ascii码的char事实上就是unicode码wchar的首个字节码, 如wchar[20] = "qqqq"; 在内存中排码事实上是char的'q' '\0'这类.因此我们 ...
CString string char* char 之间的字符转换（多种方法）
在写程序的时候,我们经常遇到各种各样的类型转换,比如 char* CString string 之间的互相转换.首先解释下三者的含义. CString 是一种很有用的数据类型.它们很大程度上简化了MF ...
C++ 宽字符(wchar_t)与窄字符(char)的转换
了解长度宽字符wchar_t的长度16位,可以用来显示中文等除英文外的其他文字, 窄字符 char 的长度 8 位,只能处理英文. 哪里可以见到在VS2010, 2012, 2013 ...
vc++字符转换
测试环境: vs2008 开发语言:C++ #include <iostream>#include <windows.h>#include <string> // ...
mfc Unicode转 ASNI ,WCHAR 转 CHAR
知识点: 宽字符转多字节字符多字节字符转宽字符什么是ANSI,什么又是UNICODE呢?其实这是两种不同的编码方式标准,ANSI中的字符采用8bit,而UNICODE中的字符采用16bit 在VC ...
CString char BSTR 转换
关于字符集不一的历史原因,可以参考: UNICODE与ANSI的区别以下是网上转载的资料.我将辅以自己的实例,说明并总结关系. 一．CString, int, string, char*之间的转换 ...
通过编写串口助手工具学习MFC过程——（三）Unicode字符集的宽字符和多字节字符转换
通过编写串口助手工具学习MFC过程因为以前也做过几次MFC的编程,每次都是项目完成时,MFC基本操作清楚了,但是过好长时间不再接触MFC的项目,再次做MFC的项目时,又要从头开始熟悉.这次通过做一个 ...
带毫秒的字符转换成时间（DateTime）格式的通用方法
C#自身有更好的方式,Net任意String格式转换为DateTime类型 ====================================================== 原文 ==== ...
sql字符转换函数大全
删除空格有两个函数,TTRIM()和LTRIM(),可以用来从字符串中剪掉空格.函数LTRIM()去除应该字符串前面的所有空格:函数RTRIM()去除一个字符串尾部的所有空格.这些和vbscript ...

随机推荐

'telnet' 不是内部或外部命令,也不是可运行的程序或批处理文件。
Win7或者win8等是默认没有安装telnet功能,所以你直接用telnet命令是用不了的: 下面介绍在win8下面如何操作:“控制面板”-->“程序”(在左下角)-->程序和功能--- ...
Java笔记1：IntelliJ IDEA详细安装步骤
安装IntelliJ IDEA 一.安装JDK 1 下载最新的jdk,这里下的是jdk-8u66 2 将jdk安装到默认的路径C:\Program Files\Java目录下二.安装IntelliJ ...
【招聘App】—— React/Nodejs/MongoDB全栈项目：信息完善&用户列表
前言:最近在学习Redux+react+Router+Nodejs全栈开发高级课程,这里对实践过程作个记录,方便自己和大家翻阅.最终成果github地址:https://github.com/66We ...
java 问题汇总(总结，重点)若忘了可以看看{不定时更新}
在用到spring框架中时,场景如下 post 请求过去,对象接收不到参数的值(解决办法:考虑到在参数上加个@RequestBody 注解即可,有些没加的是框架帮忙处理了后默认接收的是json串) h ...
Jquery获取当前行的数据
取表格当前行数据js代码: Java代码 $(function() { $(".myclass").each(function(){ var tmp=$(this).chi ...
[Javascript] Intercept property access with Javascript Proxy
A Javascript Proxy object is a very interesting es6 feature, that allows you to determine behaviors ...
MySQL错误Another MySQL daemon already running with the same unix socket.v
etc/init.d/mysqld start 结果显示 Another MySQL daemon already running with the same unix socket.显示另一个MyS ...
python列表解析和正同表达式
正则表达式 [i for i in ['1232','233','22'] if re.match('^233$', i)] return ['233']
改动Androidproject的名称（非Eclipse重命名）
问题背景在Eclipse,Import新的Android源代码project时.假设Eclipse的workspace已经存在同样名称project,是无法导入的. 网上有非常多改动工程名的方法.是 ...
C-类型转换(陷阱)
getchar() 返回值为int类型 1.自动类型转换(运算符两边变量类型不同时) 1).两个变量类型自动转换成一样的类型(会根据参数类型自动转换, 而不是直接位转换), 且运算结果也是转换后的类型 ...

wchar与char字符转换的探究

wchar与char字符转换的探究的更多相关文章

随机推荐

热门专题