首先需要知道 Unicode 编码范围 [U+00, U+10FFFF], 其中 [U+00, U+FFFF] 称为基础平面(BMP), 这其中的字符最为常用.

当然, 这 65536 个字符是远远不够的.

0x010000 - 0x10FFFF 为辅助平面, 共可存放16 * 65536个字符，划分为16个不同的平面

http://www.oschina.net/code/snippet_179574_15065

按照如下的编码方式，对UTF8和UTF16之间进行转换

从UCS-2到UTF-8的编码方式如下(没有处理扩展面)：

UCS-2编码(16进制)	UTF-8 字节流(二进制)
0000 - 007F	0xxxxxxx
0080 - 07FF	110xxxxx 10xxxxxx
0800 - FFFF	1110xxxx 10xxxxxx 10xxxxxx

typedef unsigned long   UTF32;  /* at least 32 bits */

typedef unsigned short  UTF16;  /* at least 16 bits */

typedef unsigned char   UTF8;   /* typically 8 bits */

typedef unsigned int    INT;

/*

UCS-2编码    UTF-8 字节流(二进制)

0000 - 007F  0xxxxxxx

0080 - 07FF 110xxxxx 10xxxxxx

0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

*/

#define UTF8_ONE_START      (0xOOO1)

#define UTF8_ONE_END        (0x007F)

#define UTF8_TWO_START      (0x0080)

#define UTF8_TWO_END        (0x07FF)

#define UTF8_THREE_START    (0x0800)

#define UTF8_THREE_END      (0xFFFF)

void UTF16ToUTF8(UTF16* pUTF16Start, UTF16* pUTF16End, UTF8* pUTF8Start, UTF8* pUTF8End)

{

    UTF16* pTempUTF16 = pUTF16Start;

    UTF8* pTempUTF8 = pUTF8Start;

    while (pTempUTF16 < pUTF16End)

    {

        if (*pTempUTF16 <= UTF8_ONE_END

            && pTempUTF8 + 1 < pUTF8End)

        {

            //0000 - 007F  0xxxxxxx

            *pTempUTF8++ = (UTF8)*pTempUTF16;

        }

        else if(*pTempUTF16 >= UTF8_TWO_START && *pTempUTF16 <= UTF8_TWO_END

            && pTempUTF8 + 2 < pUTF8End)

        {

            //0080 - 07FF 110xxxxx 10xxxxxx

            *pTempUTF8++ = (*pTempUTF16 >> 6) | 0xC0;

            *pTempUTF8++ = (*pTempUTF16 & 0x3F) | 0x80;

        }

        else if(*pTempUTF16 >= UTF8_THREE_START && *pTempUTF16 <= UTF8_THREE_END

            && pTempUTF8 + 3 < pUTF8End)

        {

            //0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

            *pTempUTF8++ = (*pTempUTF16 >> 12) | 0xE0;

            *pTempUTF8++ = ((*pTempUTF16 >> 6) & 0x3F) | 0x80;

            *pTempUTF8++ = (*pTempUTF16 & 0x3F) | 0x80;

        }

        else

        {

            break;

        }

        pTempUTF16++;

    }

    *pTempUTF8 = 0;

}

void UTF8ToUTF16(UTF8* pUTF8Start, UTF8* pUTF8End, UTF16* pUTF16Start, UTF16* pUTF16End)

{

    UTF16* pTempUTF16 = pUTF16Start;

    UTF8* pTempUTF8 = pUTF8Start;

    while (pTempUTF8 < pUTF8End && pTempUTF16+1 < pUTF16End)

    {

        if (*pTempUTF8 >= 0xE0 && *pTempUTF8 <= 0xEF)//是3个字节的格式

        {

            //0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

            *pTempUTF16 |= ((*pTempUTF8++ & 0xEF) << 12);

            *pTempUTF16 |= ((*pTempUTF8++ & 0x3F) << 6);

            *pTempUTF16 |= (*pTempUTF8++ & 0x3F);

        }

        else if (*pTempUTF8 >= 0xC0 && *pTempUTF8 <= 0xDF)//是2个字节的格式

        {

            //0080 - 07FF 110xxxxx 10xxxxxx

            *pTempUTF16 |= ((*pTempUTF8++ & 0x1F) << 6);

            *pTempUTF16 |= (*pTempUTF8++ & 0x3F);

        }

        else if(*pTempUTF8 >= 0 && *pTempUTF8 <= 0x7F)//是1个字节的格式

        {

            //0000 - 007F  0xxxxxxx

            *pTempUTF16 = *pTempUTF8++;

        }

        else

        {

            break;

        }

        pTempUTF16++;

    }

    *pTempUTF16 = 0;

}

int main()

{

    UTF16 utf16[256] = {L"你a好b吗234中国~!"};

    UTF8 utf8[256];

    UTF16ToUTF8(utf16, utf16+wcslen(utf16), utf8, utf8+256);

    memset(utf16, 0, sizeof(utf16));

    UTF8ToUTF16(utf8, utf8 + strlen(utf8), utf16, utf16+256);

    return 0;

}

　　UTF-16 并不比 UTF-8 更受待见, 只是 Windows 默认使用 UTF-16 而已, 所以不得不在它们之间做转换(如果你还在使用非 Unicode 编码, 那你已经是受到微软的毒害了)

　　当然, 万恶的微软还是给出了更简单的方法的, 那就是下面的两个函数:

WideCharToMultiByte

将UTF-16（宽字符）字符串映射到新的字符串。新的字符串不一定来自多字节字符集。(那你取这个名字是闹哪样? 多字节字符集是什么鬼??? 你怎么不去屎)

https://msdn.microsoft.com/en-us/library/windows/desktop/dd374130(v=vs.85).aspx

MultiByteToWideChar

将字符串映射到UTF-16（宽字符）字符串。字符串不一定来自多字节字符集。

https://msdn.microsoft.com/en-us/library/windows/desktop/dd319072(v=vs.85).aspx

程序: 将 UTF-16 编码的字符串转换为 UTF-8 编码, 并在控制台输出

#include <Windows.h>

#include <stdio.h>

#include <stdlib.h>

#include <string.h>

void use(const char *utf8str) {

	system("Pause");

	system("chcp 65001");

	if (utf8str == NULL) {

		printf("NULL\n");

		return;

	}

	printf("%s\n", utf8str);

}

char *utf16to8(const wchar_t *str) {

	if (str == NULL) {

		return NULL;

	}

	int cBuf = 0; // 缓冲区大小

	// 计算缓冲区需要的大小, 如果函数成功, 则返回值至少是 1 (UTF-8以0x00结尾)

	if (cBuf = WideCharToMultiByte(

		CP_UTF8,

		0,

		str,

		-1,

		NULL,

		0,

		NULL,

		NULL), !cBuf ){

			// 计算失败

			fprintf(stderr, "计算内存失败!");

			return NULL;

	}

	printf("缓冲区大小 %d .\n", cBuf);

	char *buf = NULL; // 指向缓冲区

	buf = (char *)malloc(cBuf); // 分配缓冲区

	if (!WideCharToMultiByte(

		CP_UTF8,

		0,

		str,

		-1,

		buf,

		1024,

		NULL,

		NULL) ){

			fprintf(stderr, "转换失败!\n");

			return NULL;

	}

	// 返回缓冲区地址

	return buf;

}

void run() {

	const wchar_t *str = L"Hello你好我的朋友!";

	char *utf8str = utf16to8(str);

	use(utf8str);
　　　　 free(utf8str);

}

int main(int argc, char* argv[]) {

	run();

	system("Pause");

	return EXIT_SUCCESS;

}

　　Output如下------>

缓冲区大小 25 .
请按任意键继续. . .

Active code page: 65001
Hello你好我的朋友!
Press any key to continue . . .

上面这个函数调用了两次 WideCharToMultiByte(), 第一次是计算转换所需的空间, 第二次开始转换(It's stupid!)

那么依葫芦画瓢, 你现在可以将 UTF-8 -> UTF16了吗?

补两张图

最终版本:

wchar_t *

utf8to16(const char *str) {

        if (str == NULL) return L"(null)";

        // 计算缓冲区需要的大小, 如果函数成功, 则返回 UTF-8 字符数量, 所以无法确定具体字节数

        int cBuf = MultiByteToWideChar(CP_UTF8, 0, str, -1, NULL, 0);

        if (cBuf == 0) return L"(null)";

        wchar_t *buf = malloc(cBuf * 4);

        if (cBuf != MultiByteToWideChar(CP_UTF8, 0, str, -1, buf, cBuf)) return L"(null)";

        return buf;

}

char *

utf16to8(const wchar_t *str) {

        if (str == NULL) return "(null)";

        // 计算缓冲区需要的大小, 如果函数成功, 则返回具体字节数, 所以 cBuf 至少是 1 (UTF-8以0x00结尾)

        int cBuf = WideCharToMultiByte(CP_UTF8, 0, str, -1, NULL, 0, NULL, NULL);

        if (cBuf < 1) return "(null)";

        char *buf = malloc(cBuf); // 分配缓冲区

        if (cBuf != WideCharToMultiByte(CP_UTF8, 0, str, -1, buf, 1024, NULL, NULL)) return "(null)";

        return buf;

}

UTF8 UTF16 之间的互相转换的更多相关文章

(转) Unicode(UTF-8, UTF-16)令人混淆的概念
原文地址:http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html 为啥需要Unicode 我们知道计算机其实挺笨的,它只认识010 ...
Unicode(UTF-8, UTF-16)令人混淆的概念（转）
文章转自http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html (http://swiftlet.net/archives/cat ...
关于编码：Unicode/UTF-8/UTF-16/UTF-32
关于编码,绕不开下面这些概念 ①Unicode/UTF-8/UTF-16/UTF-32 ②大小端字节序(big-endian/little-endian) ③BOM(Byte Order Mark) ...
Unicode(UTF-8, UTF-16)令人混淆的概念----我看完了不错
来自:http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html ---------------------------------- ...
【转】Unicode(UTF-8, UTF-16)令人混淆的概念
参考地址:http://www.cnblogs.com/kingcat/archive/2012/10/16/2726334.html Java中,char类型用UTF-16编码描述一个代码单元为啥 ...
细说：Unicode, UTF-8, UTF-16, UTF-32, UCS-2, UCS-4
1. Unicode与ISO 10646 全世界很多个国家都在为自己的文字编码,并且互不想通,不同的语言字符编码值相同却代表不同的符号(例如:韩文编码EUC-KR中“한국어”的编码值正好是汉字编码GB ...
Unicode 字符集及UTF-8 UTF-16编码
很久以前发在他处的一篇博文,今天翻出来重新整理了一下 Unicode 字符集共分为 17 个平面(plane), 分别对应 U+xx0000 - U+xxFFFF 的 code points, 其中 ...
从字节理解Unicode（UTF8/UTF16)
如果你不知道或者不了解什么是Unicode/UTF8/UTF16,请详细阅读这篇文章(这也是这篇博文的先决条件): 学点编码知识又不会死:Unicode的流言终结者和编码大揭秘但是如果你看完以上文章 ...
一句话理解字符编码(Unicode ,UTF8,UTF16)
Unicode和ASCII码属于同一级别的,都是字符集,字符集规定从1到这个字符集的最大范围每个序号都各表示什么意思.比如ASCII字符集中序号65表示"A". 那接下来的UTF8 ...

随机推荐

Spring MVC工作原理及注解说明
SpringMVC框架介绍 1) spring MVC属于SpringFrameWork的后续产品,已经融合在Spring Web Flow里面. Spring 框架提供了构建 Web 应用程序的全功 ...
【BZOJ3874】[AHOI&JSOI2014]宅男计划（贪心，三分）
[BZOJ3874][AHOI&JSOI2014]宅男计划(贪心,三分) 题面 BZOJ 洛谷题解大力猜想一最长的天数和购买外卖的总次数是单峰的.感性理解一下就是买\(0\)次是\(0\) ...
【BZOJ2817】[ZJOI2012]波浪（动态规划）
[BZOJ2817][ZJOI2012]波浪(动态规划) 题面 BZOJ 洛谷题解首先这个差值最大也就是\(n^2\)级别的. 那么这样子就可以压进状态啦. 我们把这个操作看成一个个加数的操作,按 ...
【BZOJ5291】[BJOI2018]链上二次求和（线段树）
[BZOJ5291][BJOI2018]链上二次求和(线段树) 题面 BZOJ 洛谷题解考虑一次询问\([l,r]\)的答案.其中\(S\)表示前缀和 \(\displaystyle \sum_{ ...
W10笔记本电脑弄成WIFI
用网线连接的笔记本弄成WIFI供手机上网.以前是买了一个随身 WIFI,可以当网卡使用.后来使用命令 // 建立WIFI netsh wlan set hostednetwork mode=allow ...
PHP安装－phpMyAdmin+Discuz
PHP安装-phpMyAdmin+Discuz基于Apache和MySQL安装完成之后继续安装PHP.以构建LAMP动态网站平台.http:./configure --prefix=/usr/loca ...
ubuntu下查看磁盘读写情况
iostat -d -k 1 10 每秒刷新一次,共10次. 未完待续..
Git同步远程fork的项目
通过fork创建的项目,如果远程仓库代码进行了更新,本地需要同步的话,可以在git上创建一个上游仓库步骤运行git remote add upstream https://github.com/O ...
tyvj/joyoi 1043 表达式计算4
这题怎么这么毒瘤... 一开始我想转后缀表达式来计算,后来发现有负数...弃疗. 递归求解又发现会有多余括号,我觉得不行... 实在是毒瘤啊! #include <cstdio> #inc ...
洛谷P3810 陌上花开 CDQ分治(三维偏序)
好,这是一道三维偏序的模板题当然没那么简单..... 首先谴责洛谷一下:可怜的陌上花开的题面被无情的消灭了: 这么好听的名字#(滑稽) 那么我们看了题面后就发现:这就是一个三维偏序.只不过ans不加 ...

UTF8 UTF16 之间的互相转换

WideCharToMultiByte

MultiByteToWideChar

UTF8 UTF16 之间的互相转换的更多相关文章

随机推荐

热门专题