ANSI与UINCODE编码
- ANSI是一种字符代码,为使计算机支持更多语言,通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。
- Ansi用char表示一个字符,占用一个字节储存空间。所以Ansi字符码最多支持255个字符,表示英文还可以,但对于中文、日文、韩文等语言来说就不够用了。
- Uincode用unsigned short表示一个字符,定义成wchar_t,占用两个字节储存空间。所以Uincode字符码基本支持90%的自然语言。缺点:空间占用翻倍,网络传输量变大。
ANSI码 = 窄字符
Uincode = 宽字符
◆字符码数据类型:
● Ansi: char、char * 、const char * C++
CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR VC++
● Unicode: wchar_t、wchar_t * 、const wchar_t *
WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR
● T 通用类型: TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR
以上,其中:P代表指针的意思,STR代表字符串的意思,L是长指针的意思,在WIN32平台下可以忽略,C代表const常量的意思,W代表wide宽字节的意思,T大家可以理解为通用类型的意思,
通用类型是微软为了方便使用定义的通用字符类型,在不同的编码环境下,会根据是否定义了_UINCODE宏,自动会转化为char 或 wchar_t;
◆ 字符串类型的对象的定义:
● Ansi:char *pAnsiStr = "hello";
● Unicode:wchar_t *pUnicodeStr = L"hello";
● 通用类型:TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");
● 动态申请内存:TCHAR *pszBuf = new TCHAR[100]; //标示符很重要
其中,_TEXT 和 _T 是一样的,定义如下:
#define _T(x) __T(x) #define _TEXT(x) __T(x) //来看看 __T 的最终定义: #ifdef _UNICODE #define __T(x) L##x //转换Uincode #else #define __T(x) x //等于本身 #endif
其中,##为连接起来的意思。
◆ 常用的字符串处理函数,具体信息见MSDN:
字符串长度:
● Ansi:strlen(char *str); //获取字符串长度,cs为cstring缩写,len为length,w,_t字符串类型。方便记忆。也可以查询MSDN
● Unicode:wcslen(wchar_t *str);
● 通用函数:_tcslen(TCHAR *str);
● Ansi:int atoi(const char *str); //转换为数字,atoi,_wtoi,_tstoi.可以按照不同的颜色去记忆。分别为字符串类型+to+转换类型。
● Unicode:int _wtoi(const wchar_t *str);
● 通用函数:_tstoi(const TCHAR *str);
字符串拷贝:
● Ansi:strcpy(char *strDestination, const char *strSource); //获取字符串长度,cs为cstring缩写,cpy为copy,w,_t字符串类型。方便记忆。也可以查询MSDN
● Unicode:wcscpy(wchar_t *strDestination, const wchar_t *strSource);
● 通用函数:_tcscpy(TCHAR *strDestination, const TCHAR *strSource);
以上函数不安全,在vs2003等以上版本的编译器中会有warnning警告提示,以下为安全函数(vc++6.0不支持):
● Ansi:strcpy_s(char *strDestination, size_t numberOfElements, const char *strSource);//_s可以理解为safe缩写,保险的。
● Unicode:wcscpy_s(wchar_t *strDestination, size_t numberOfElements, const wchar_t *strSource);
● 通用函数:_tcscpy_s(TCHAR *strDestination, size_t numberOfElements, const TCHAR *strSource);
numberOfElements Size of the destination string buffer. 目的缓冲区的大小,以字节为单位,不是字符!
size_t unsigned integer,在MSDN中的解释:Result of sizeof operator,也就是说 size_t 是 unsigned integer 即无符号整数。那为什么会有size_t这个类型呢? 因为不同平台的操作系统(32/64)中 int/long 等类型所占的字节并不一样,而 size_t 在不同的平台下有不同的定义。有点类似于TCHAR类型:
#ifndef _SIZE_T_DEFINED #ifdef _WIN64 typedef unsigned __int64 size_t; //8个字节,64位 #else typedef _W64 unsigned int size_t; //4个字节,32位 #endif #define _SIZE_T_DEFINED #endif
◆ 字符串占用字节数:
● Ansi:
char szStr[] = "abc";
占用字节数求法:sizeof(szStr);
char *psz = "defgh";
占用字节数求法:strlen(psz)*sizeof(char);
● Unicode:
wchar_t szwStr[] = L"abc";
占用字节数求法:sizeof(szwStr);
wchar_t *pwsz = L"defgh";
占用字节数求法:wcslen(pwsz)*sizeof(wchar_t);
● 通用函数:
TCHAR szStr[] = _T("abc");
占用字节数求法:sizeof(szStr);
TCHAR *psz = _T("defgh");
占用字节数求法:_tcslen(psz)*sizeof(TCHAR);
◆转换用到的最根本的 API 函数:
WideCharToMultiByte 实现宽字节转换到窄字节 //函数参数自行查询MSDN。
MultiByteToWideChar 实现窄字节转换到宽字节
WideCharToMultiByte 的代码页用来标记与新转换的字符串相关的代码页;
MultiByteToWideChar 的代码页用来标记与一个多字节字符串相关的代码页,
[1]、常用的代码页有 CP_ACP 和 CP_UTF8 两个: 使用 CP_ACP 代码页就实现了 ANSI 与 Unicode 之间的转换;
使用 CP_UTF8 代码页就实现了 UTF-8 与 Unicode 之间的转换。
[2]、dwFlags 参数允许我们进行额外的控制,但是,一般情况下都不使用这个标志,直接传递 0 就行了。
[3]、lpDefaultChar和pfUsedDefaultChar:
只有当WideCharToMultiByte函数遇到一个宽字节字符,而该字符在uCodePage参数标识的代码页中并没有它的表示法时,WideCharToMultiByte函数才使用这两个参数。如果宽字节字符不能被转换,该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL(这是大多数情况下的参数值),那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的,因为问号是个通配符。pfUsedDefaultChar参数指向一个布尔变量,如果Unicode字符串中至少有一个字符不能转换成等价多字节字符,那么函数就将该变量置为TRUE。如果所有字符均被成功地转换,那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后,可以测试该变量。
● 两个转换函数的使用举例:
char *cctryWideCharToAnsi(wchar_t *pWideChar) { if (!pWideChar) return NULL; char *pszBuf = NULL; int needBytes = WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, NULL, 0, NULL, NULL); if (needBytes > 0){ pszBuf = new char[needBytes+1]; ZeroMemory(pszBuf, (needBytes+1)*sizeof(char)); WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, pszBuf, needBytes, NULL, NULL); } return pszBuf; } wchar_t *cctryAnsiCharToWide(char *pChar) { if (!pChar) return NULL; wchar_t *pszBuf = NULL; int needWChar = MultiByteToWideChar(CP_ACP, 0, pChar, -1, NULL, 0); if (needWChar > 0){ pszBuf = new wchar_t[needWChar+1]; ZeroMemory(pszBuf, needWChar+1); MultiByteToWideChar(CP_ACP, 0, pChar, -1, pszBuf, needWChar); } return pszBuf; }
使用过后千万别忘记释放空间
◆宏转换
A2W、W2A、T2A、T2W 宏的使用以及注意事项:
[1]、使用 alloca() 函数进行空间的申请,宏返回的地址空间是从栈上面申请的,那么以后就不必释放,这样就涉及到了一个作用域的问题,具体见MSDN,
大家可以简单的理解为“向下兼容”.
[2]、不要在一个函数的循环体中使用 A2W 等字符转换宏,可能引起栈溢出。
比如:
#include <atlconv.h> void func() { while(true) { { USES_CONVERSION; testFunc(A2W("abc")); } } }
ANSI与UINCODE编码的更多相关文章
- ANSI是什么编码?
用Notepad++创建一个文本文件text.txt,其默认编码格式为ANSI(乍看之下,还以为是ASCII呢),输入汉字居然不是乱码: 保存为test.txt,发送给你美国的同事Bob.他也用Not ...
- unicode ansi utf-8 unicode_big_endian编码的区别
随便说说字符集和编码 快下班时,爱问问题的小朋友Nico又问了一个问题: "sqlserver里面有char和nchar,那个n据说是指unicode的数据,这个是什么意思.&quo ...
- Ansi与Unicode编码
视频教程:Ansi与Unicode编码 大家在编程时经常遇到的数据类型: ● Ansi: char 代表一个字符 (CHAR) char * 代表一个字符串指针 (PCHAR PST ...
- 编码知识梳理(UTF-8, Unicode, GBK, X509, ANSI, VIM中编码)
编码小结 1 初识编码 所谓编码,是信息从一种形式或格式转换为另一种形式的过程. 字符编码,从自然语言的字符的一个集合(如字母表或音节表),到其他东西的一个集合(如号码或电脉冲)的映射 ANSI:wi ...
- 编码格式(UTF-8 与 ANSI)各种编码解码(encode、decode)
Windows:默认为 ANSI,记事本程序另存为处,可以设置其他编码格式: Ubuntu:默认为 UTF-8 1. ANSI ANSI 编码表示英文字符时用一个字节,表示中文用两个或四个字节 -- ...
- 学习:多字节编码(ANSI)和UNICODE编码的关系
Windows 既可以使用 Unicode 字符集又可以使用传统的字符集(如多字节编码)来实现对多种语言的支持,以适应国际市场的要求.与传统的字符集编码相比,Unicode 是世界通用的字符编码标准, ...
- 趣谈unicode,ansi,utf-8,unicode big endian这些编码有什么区别(转载)
从头讲讲编码的故事.那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起.嗯,也许这样开始比较好…… 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同 ...
- unicode,ansi,utf-8,unicode big endian编码的区别
知乎--http://www.zhihu.com/question/23374078 http://wenku.baidu.com/view/cb9fe505cc17552707220865.html ...
- 【转】【编码】ANSI,ASCII,Unicode,UTF8之一
不同的国家和地区制定了不同的标准,由此产生了 GB2312.GBK.GB18030.Big5.Shift_JIS 等各自的编码标准.这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称 ...
随机推荐
- ubuntu 快捷键和安装知识知识
本文节选自“The Official Ubuntu Book, 7th Edition.pdf” 快捷键部分直接引用原书中图片. Linux Folders Learning Unity Keyboa ...
- [Android分享] 如何解决Android 5.0中出现的警告:Service Intent must be explicit
Android 5.0程序运行报Service Intent must be explicit错误,原因是5.0的service必须显式调用 改成 Intent intent = new Intent ...
- 3月23日html(四) 格式与布局
一.position:fixed 锁定位置(相对于浏览器的位置),例如有些网站的右下角的弹出窗口. 二.position:absolute 1.外层没有position:absolute(或relat ...
- dubbo No provider available for the service com.alibaba.dubbo.monitor.MonitorService from registry
No provider available for the service com.alibaba.dubbo.monitor.MonitorService from registry http:// ...
- k-means均值聚类算法(转)
4.1.摘要 在前面的文章中,介绍了三种常见的分类算法.分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应.但是很多时候上述条件得不到满足,尤其是在 ...
- TextField控件详解2
//初始化textfield并设置位置及大小 UITextField *text = [[UITextField alloc]initWithFrame:CGRectMake(20, 20, 130, ...
- Baidu百度搜索引擎登录网站 - Blog透视镜
Baidu百度是中国的搜索引擎,有心经营中国市场的网友,自然不能错过,不过Google谷歌已经遭中国封锁,如果你的网站是用Blogger架设的,具有blogspot.com网域的,则会无法浏览. 阅读 ...
- Cracking the coding interview--Q1.1
原文: Implement an algorithm to determine if a string has all unique characters. What if you can not u ...
- java cannot find the tag library descriptor for "http://java.sun.com/jsp/jstl/core"
出现java cannot find the tag library descriptor for "http://java.sun.com/jsp/jstl/core" 主要的愿 ...
- Thunderbird Mail 支持 Microsoft Exchange
Thunderbird地址:https://www.mozilla.org/en-US/thunderbird/ 插件下载地址:https://addons.mozilla.org/zh-CN/thu ...