ANSI与UINCODE编码

简要说明：

ANSI是一种字符代码，为使计算机支持更多语言，通常使用 0x80~0xFF 范围的 2 个字节来表示 1 个字符。

Uincode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。

优缺点：

Ansi用char表示一个字符，占用一个字节储存空间。所以Ansi字符码最多支持255个字符，表示英文还可以，但对于中文、日文、韩文等语言来说就不够用了。

Uincode用unsigned short表示一个字符，定义成wchar_t，占用两个字节储存空间。所以Uincode字符码基本支持90%的自然语言。缺点：空间占用翻倍，网络传输量变大。

ANSI码 = 窄字符

Uincode = 宽字符

◆字符码数据类型：

● Ansi： char、char * 、const char * 　　　　　　　　　　　　　　　　　C++

　　　　 CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR 　　　　　　　　　　VC++

● Unicode： wchar_t、wchar_t * 、const wchar_t *

　　　　 WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR

● T 通用类型： TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR

以上，其中：P代表指针的意思，STR代表字符串的意思，L是长指针的意思，在WIN32平台下可以忽略，C代表const常量的意思，W代表wide宽字节的意思，T大家可以理解为通用类型的意思，　　

通用类型是微软为了方便使用定义的通用字符类型，在不同的编码环境下，会根据是否定义了_UINCODE宏，自动会转化为char 或 wchar_t;

◆ 字符串类型的对象的定义：

● Ansi：char *pAnsiStr = "hello";

● Unicode：wchar_t *pUnicodeStr = L"hello";

● 通用类型：TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");

● 动态申请内存：TCHAR *pszBuf = new TCHAR[100];　　　　　　　　　　　　　　　　　　//标示符很重要

其中，_TEXT 和 _T 是一样的，定义如下：

#define _T(x)       __T(x) 

#define _TEXT(x)    __T(x)

//来看看 __T 的最终定义： 

#ifdef  _UNICODE 

#define __T(x)      L##x 　　　　　　//转换Uincode

#else 

#define __T(x)      x 　　　　　　　　//等于本身

#endif

其中，##为连接起来的意思。

◆ 常用的字符串处理函数，具体信息见MSDN：

字符串长度：

● Ansi：strlen(char *str);　　　　　　　　　　　　　　　　//获取字符串长度，cs为cstring缩写，len为length，w，_t字符串类型。方便记忆。也可以查询MSDN

● Unicode：wcslen(wchar_t *str);

● 通用函数：_tcslen(TCHAR *str);

● Ansi：int atoi(const char *str);　　　　　　　　　　　　//转换为数字，atoi,_wtoi,_tstoi.可以按照不同的颜色去记忆。分别为字符串类型+to+转换类型。

● Unicode：int _wtoi(const wchar_t *str);

● 通用函数：_tstoi(const TCHAR *str);

字符串拷贝：

● Ansi：strcpy(char *strDestination, const char *strSource); //获取字符串长度，cs为cstring缩写，cpy为copy，w，_t字符串类型。方便记忆。也可以查询MSDN

● Unicode：wcscpy(wchar_t *strDestination, const wchar_t *strSource);

● 通用函数：_tcscpy(TCHAR *strDestination, const TCHAR *strSource);

以上函数不安全，在vs2003等以上版本的编译器中会有warnning警告提示，以下为安全函数（vc++6.0不支持）：

● Ansi：strcpy_s(char *strDestination, size_t numberOfElements, const char *strSource);//_s可以理解为safe缩写，保险的。

● Unicode：wcscpy_s(wchar_t *strDestination, size_t numberOfElements, const wchar_t *strSource);

● 通用函数：_tcscpy_s(TCHAR *strDestination, size_t numberOfElements, const TCHAR *strSource);

numberOfElements Size of the destination string buffer. 目的缓冲区的大小，以字节为单位，不是字符！

size_t unsigned integer，在MSDN中的解释：Result of sizeof operator，也就是说 size_t 是 unsigned integer 即无符号整数。那为什么会有size_t这个类型呢？因为不同平台的操作系统(32/64)中 int/long 等类型所占的字节并不一样，而 size_t 在不同的平台下有不同的定义。有点类似于TCHAR类型：

#ifndef   _SIZE_T_DEFINED   

　　#ifdef     _WIN64   

　　typedef   unsigned   __int64         size_t;   //8个字节，64位  

　　#else   

　　typedef   _W64   unsigned   int       size_t;   //4个字节，32位   

　　#endif   

　　#define   _SIZE_T_DEFINED 

#endif

◆ 字符串占用字节数：

● Ansi：

char szStr[] = "abc";

占用字节数求法：sizeof(szStr);

char *psz = "defgh";

占用字节数求法：strlen(psz)*sizeof(char);

● Unicode：

wchar_t szwStr[] = L"abc";

占用字节数求法：sizeof(szwStr);

wchar_t *pwsz = L"defgh";

占用字节数求法：wcslen(pwsz)*sizeof(wchar_t);

● 通用函数：

TCHAR szStr[] = _T("abc");

占用字节数求法：sizeof(szStr);

TCHAR *psz = _T("defgh");

占用字节数求法：_tcslen(psz)*sizeof(TCHAR);

◆转换用到的最根本的 API 函数：

WideCharToMultiByte 实现宽字节转换到窄字节　　　　　　　　　　//函数参数自行查询MSDN。

MultiByteToWideChar 实现窄字节转换到宽字节　　　　　　　　　　

WideCharToMultiByte 的代码页用来标记与新转换的字符串相关的代码页；

MultiByteToWideChar 的代码页用来标记与一个多字节字符串相关的代码页，

[1]、常用的代码页有 CP_ACP 和 CP_UTF8 两个：使用 CP_ACP 代码页就实现了 ANSI 与 Unicode 之间的转换；

　　使用 CP_UTF8 代码页就实现了 UTF-8 与 Unicode 之间的转换。

[2]、dwFlags 参数允许我们进行额外的控制，但是，一般情况下都不使用这个标志，直接传递 0 就行了。

[3]、lpDefaultChar和pfUsedDefaultChar：

只有当WideCharToMultiByte函数遇到一个宽字节字符，而该字符在uCodePage参数标识的代码页中并没有它的表示法时，WideCharToMultiByte函数才使用这两个参数。如果宽字节字符不能被转换，该函数便使用lpDefaultChar参数指向的字符。如果该参数是NULL（这是大多数情况下的参数值），那么该函数使用系统的默认字符。该默认字符通常是个问号。这对于文件名来说是危险的，因为问号是个通配符。pfUsedDefaultChar参数指向一个布尔变量，如果Unicode字符串中至少有一个字符不能转换成等价多字节字符，那么函数就将该变量置为TRUE。如果所有字符均被成功地转换，那么该函数就将该变量置为FALSE。当函数返回以便检查宽字节字符串是否被成功地转换后，可以测试该变量。

● 两个转换函数的使用举例：

char *cctryWideCharToAnsi(wchar_t *pWideChar)
{
	if (!pWideChar) return NULL;
	char *pszBuf = NULL;
	int needBytes = WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, NULL, 0, NULL, NULL);
	if (needBytes > 0){
		pszBuf = new char[needBytes+1];
		ZeroMemory(pszBuf, (needBytes+1)*sizeof(char));
		WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, pszBuf, needBytes, NULL, NULL);
	}

	return pszBuf;
}

wchar_t *cctryAnsiCharToWide(char *pChar)
{
	if (!pChar) return NULL;
	wchar_t *pszBuf = NULL;
	int needWChar = MultiByteToWideChar(CP_ACP, 0, pChar, -1, NULL, 0);
	if (needWChar > 0){
		pszBuf = new wchar_t[needWChar+1];
		ZeroMemory(pszBuf, needWChar+1);
		MultiByteToWideChar(CP_ACP, 0, pChar, -1, pszBuf, needWChar);
	}

	return pszBuf;
}

使用过后千万别忘记释放空间

◆宏转换

A2W、W2A、T2A、T2W 宏的使用以及注意事项：
[1]、使用 alloca() 函数进行空间的申请，宏返回的地址空间是从栈上面申请的，那么以后就不必释放，这样就涉及到了一个作用域的问题，具体见MSDN，
大家可以简单的理解为“向下兼容”.
[2]、不要在一个函数的循环体中使用 A2W 等字符转换宏，可能引起栈溢出。
比如：

#include <atlconv.h>
void func()
{
    while(true)
    {
        {
            USES_CONVERSION;
            testFunc(A2W("abc"));
        }
    }
}

ANSI与UINCODE编码的更多相关文章

ANSI是什么编码？
用Notepad++创建一个文本文件text.txt,其默认编码格式为ANSI(乍看之下,还以为是ASCII呢),输入汉字居然不是乱码: 保存为test.txt,发送给你美国的同事Bob.他也用Not ...
unicode ansi utf-8 unicode_big_endian编码的区别
随便说说字符集和编码快下班时,爱问问题的小朋友Nico又问了一个问题: "sqlserver里面有char和nchar,那个n据说是指unicode的数据,这个是什么意思.&quo ...
Ansi与Unicode编码
视频教程:Ansi与Unicode编码大家在编程时经常遇到的数据类型: ● Ansi: char 代表一个字符 (CHAR) char * 代表一个字符串指针 (PCHAR PST ...
编码知识梳理(UTF-8, Unicode, GBK, X509, ANSI, VIM中编码)
编码小结 1 初识编码所谓编码,是信息从一种形式或格式转换为另一种形式的过程. 字符编码,从自然语言的字符的一个集合(如字母表或音节表),到其他东西的一个集合(如号码或电脉冲)的映射 ANSI:wi ...
编码格式（UTF-8 与 ANSI）各种编码解码（encode、decode）
Windows:默认为 ANSI,记事本程序另存为处,可以设置其他编码格式: Ubuntu:默认为 UTF-8 1. ANSI ANSI 编码表示英文字符时用一个字节,表示中文用两个或四个字节 -- ...
学习：多字节编码(ANSI)和UNICODE编码的关系
Windows 既可以使用 Unicode 字符集又可以使用传统的字符集(如多字节编码)来实现对多种语言的支持,以适应国际市场的要求.与传统的字符集编码相比,Unicode 是世界通用的字符编码标准, ...
趣谈unicode，ansi，utf-8，unicode big endian这些编码有什么区别（转载）
从头讲讲编码的故事.那么就让我们找个草堆坐下,先抽口烟,看看夜晚天空上的银河,然后想一想要从哪里开始讲起.嗯,也许这样开始比较好…… 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同 ...
unicode,ansi,utf-8,unicode big endian编码的区别
知乎--http://www.zhihu.com/question/23374078 http://wenku.baidu.com/view/cb9fe505cc17552707220865.html ...
【转】【编码】ANSI,ASCII,Unicode,UTF8之一
不同的国家和地区制定了不同的标准,由此产生了 GB2312.GBK.GB18030.Big5.Shift_JIS 等各自的编码标准.这些使用多个字节来代表一个字符的各种汉字延伸编码方式,称 ...

随机推荐

转载：JAVA中使用JSON进行数据传递
转载网址:http://www.cnblogs.com/undead/archive/2012/07/18/2594900.html 最近在做一个基于JAVA Servlet的WEB应用以及对应的An ...
PYTHON简介及安装
Python简介 Python是一种广泛使用的高层次,通用,解释,动态编程语言.它的设计理念强调代码的可读性,它的语法允许程序员表达更少的代码的概念比将在可能语言如C ++或Java.该语言提供旨在使 ...
MySQL数据库中日期中包涵零值的问题
默认情况下MySQL是可以接受在日期中插入0值,对于现实来说日期中的0值又没有什么意义.调整MySQL的sql_mode变量就能达到目的. set @@global.sql_mode='STRICT_ ...
Swift--存储属性-备
Swift中的属性分为存储属性和计算属性,存储属性就是Objective-C中的数据成员,计算属性不存储数据,但可以通过计算其他属性返回数据. 存储属性可以存储数据,分为常量属性(用关键字let定义) ...
[HDU] 2063 过山车(二分图最大匹配)
题目地址:http://acm.hdu.edu.cn/showproblem.php?pid=2063 女生为X集合,男生为Y集合,求二分图最大匹配数即可. #include<cstdio> ...
shell编程技术之-基础知识
一.脚本结构 linux下shell的脚本,是将一系列命令序列写在一个文本文件,而这个文本文件时可执行的.相对命令行来说,开发效率提高.因此他的构架有2部分构成#!和命令序列.其中#!指明此脚本是用哪 ...
android-support-v7-appcompat的配置使用
直接将android-support-v7-appcompat.jar包拷贝到项目的libs/下面是不能使用的,具体做法官方文档给出了详细说明: (开发环境是ADT) Using Eclipse Cr ...
LeetCode_Minimum Window Substring
Given a string S and a string T, find the minimum window in S which will contain all the characters ...
自制单片机之二-----AT89S51ISP下载线的制做
最小系统板做好了,接下来就是做根ISP下载线了.否则程序怎么写到AT89S51芯片里呢? 先来认识一下AT89S51上ISP(在线编程)功能脚的定义看上图的左边AT89S51引脚图的P1.5.P1. ...
关于selenium中的sendKeys()隔几秒发送一个字符
看一下你的IEDriverServer.exe是不是64位的,我也遇到了这样的问题,换成32位的IEDriverServer.exe,瞬间速度快了

ANSI与UINCODE编码

ANSI与UINCODE编码的更多相关文章

随机推荐

热门专题