C/C++ GBK和UTF8之间的转换

{

关于GBK和UTF-8之间的转换，很多初学者会很迷茫。

一般来说GBK和UTF-8是文字的编码方式，其对应的内码是不一样的，所以GBK和UTF-8的转换需要对内码进行一一映射，然后进行转换。

对于一般系统上的工程，一般使用libiconv即可，但是对于嵌入式或手机操作系统，libiconv显得就有点庞大了。

在这里提供GBK和UTF8转换以及全半角、大小写转换等函数，希望对手机开发的同学有所帮助，特别是在iOS上开发的同学。

具体全半角、简繁体转换使用方法见下代码：

#include "strnormalize.h"
#include <stdio.h>
#include <stdlib.h>
#include <string.h>

int main(int argc, char **argv)
{
     str_normalize_init();
     unsigned options = SNO_TO_LOWER | SNO_TO_HALF;
     if (argc > 1) options = atoi(argv[1]);

     char *buffer = (char *)malloc(65536);
     memset(buffer, 0, 65536);
     while (fgets(buffer, 65536, stdin))
     {
         str_normalize_utf8(buffer, options);
         printf("%s", buffer);
     }
     free(buffer);

     return 0;
}

UTF-8和GBK转换使用方法如下：

#include "strnormalize.h"
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <stdint.h>

int main(int argc, char **argv)
{
   str_normalize_init();
   const char *utf8 = "我是utf-8字符！";
   const char *gbk = "��GBK�ַ��";
   uint32_t utf8_len = strlen(utf8);
   uint32_t gbk_len = strlen(utf8);
   uint32_t utf8buffer_len = utf8_len * 3 + 1;
   uint32_t gbkbuffer_len = gbk_len * 2 + 1;
   char *utf8buffer = (char *)malloc(utf8buffer_len);
   char *gbkbuffer = (char *)malloc(gbkbuffer_len);
   memset(utf8buffer, 0, utf8buffer_len);
   memset(gbkbuffer, 0, gbkbuffer_len);
   utf8_to_gbk(utf8, utf8_len, &gbkbuffer, &gbkbuffer_len);
   gbk_to_utf8(gbk, gbk_len, &utf8buffer, &utf8buffer_len);
   printf("utf8: %s<=>%d \t gbkbuffer: %s<=>%d\n", utf8, utf8_len, gbkbuffer, gbkbuffer_len);
   printf("gbk: %s<=>%d \t utf8buffer: %s<=>%d\n", gbk, gbk_len, utf8buffer, utf8buffer_len);
   free(utf8buffer);
   free(gbkbuffer);
   return 0;
}

strnormalize.h

/**

 * Copyright(c) 2012-2013, All Rights Reserved.

 *

 * @file strnormalize.h

 * @details Check GBK character you could do

 *     code >= 0x8000 && _pGbk2Utf16[code - 0x8000] != 0

 * @author cnangel

 * @version 1.0.0

 * @date 2012/10/09 11:44:58

 */

#ifndef __STRNORMALIZE_H__

#define __STRNORMALIZE_H__

#ifdef __cplusplus

extern "C" {

#endif

#define SNO_TO_LOWER        1

#define SNO_TO_UPPER        2

#define SNO_TO_HALF         4

#define SNO_TO_SIMPLIFIED   8

void str_normalize_init();

void str_normalize_gbk(char *text, unsigned options);

void str_normalize_utf8(char *text, unsigned options);

int gbk_to_utf8(const char *from, unsigned int from_len, char **to, unsigned int *to_len);

int utf8_to_gbk(const char *from, unsigned int from_len, char **to, unsigned int *to_len);

#ifdef __cplusplus

}

#endif

#endif /* __STRNORMALIZE_H__ */

strnormalize.c

}

C/C++ GBK和UTF8之间的转换的更多相关文章

【Java基础专题】编码与乱码(05)---GBK与UTF-8之间的转换
原文出自:http://www.blogjava.net/pengpenglin/archive/2010/02/22/313669.html 在很多论坛.网上经常有网友问" 为什么我使用 ...
编码与乱码(05)---GBK与UTF-8之间的转换--转载
原文地址:http://www.blogjava.net/pengpenglin/archive/2010/02/22/313669.html [GBK转UTF-8] 在很多论坛.网上经常有网友问“ ...
汉字编码（【Unicode】【UTF-8】【Unicode与UTF-8之间的转换】【汉字 Unicode 编码范围】【中文标点Unicode码】【GBK编码】【批量获取汉字UNICODE码】）
Unicode与UTF-8互转(C语言实现):http://blog.csdn.net/tge7618291/article/details/7599902 汉字 Unicode 编码范围:http: ...
举例说明Unicode 和UTF-8之间的转换
1)写这篇博客的原因首先我要感谢这篇博客,卡了很久,看完下面这篇博客终于明白Unicode怎么转换成UTF-8了. https://blog.csdn.net/qq_32252957/article ...
Unicode和UTF-8之间的转换
转自:http://www.cnblogs.com/xdotnet/archive/2007/11/23/unicode_and_utf8.html#undefined 最近在用VC++开发一个小工具 ...
GBK与UTF-8编码错误转换后，无法再正确恢复
字符集错误转换导致的问题 UTF-8格式编码的字节流,按GBK字符集转换为字符串,会出现乱码,这很正常.但将其重新转为字节流,再用UTF-8字符集转为字符串,还是乱码.这就让我产生了疑惑,虽然使用错误 ...
gbk转utf-8 iconv 编码转换
linux以下有时候字符须要进行编码转换(爬虫将gbk转为utf-8编码...).一般能够选择iconv函数. 终端以下输入 man 3 iconv 得到 iconv函数的用法. 个人看习惯了 ...
C++中GB2312字符串和UTF-8之间的转换
在编程过程中需要对字符串进行不同的转换,特别是Gb2312和Utf-8直接的转换.在几个开源的魔兽私服中,很多都是老外开发的,而暴雪为了能够兼容世界上的各个字符集也使用了UTF-8.在中国使用VS( ...
基于Poco的UTF8、UTF16、GBK、Hex之间的转换
/******Encoding.h*******/ #include "Poco/UnicodeConverter.h" #include "Poco/Exception ...

随机推荐

java基础学习笔记三（多态）
多态? 多态是同一个行为具有多个不同表现形式或形态的能力. 存在的必要条件继承重写父类引用指向子类对象比如: Parent p = new Child(); 当使用多态方式调用方法时,首先检查 ...
【leetcode】927. Three Equal Parts
题目如下: Given an array A of 0s and 1s, divide the array into 3 non-empty parts such that all of these ...
django 邮箱发送
在django中提供了邮件接口 QQ邮箱配置 qq邮箱地扯:https://mail.qq.com settings文件 # 邮箱配置 EMAIL_USE_SSL = True EMAIL_HOST ...
security 页面测试
<!DOCTYPE html><html><head> <meta http-equiv="Content-Type" content=& ...
【POM】maven profile切换正式环境和测试环境
有时候,我们在开发和部署的时候,有很多配置文件数据是不一样的,比如连接mysql,连接redis,一些properties文件等等每次部署或者开发都要改配置文件太麻烦了,这个时候,就需要用到mave ...
UVALive 3902 Network （树+dfs）
Consider a tree network with n nodes where the internal nodes correspond to servers and the terminal ...
implements Serializable有什么作用
转自 http://blog.csdn.net/dinghqalex/article/details/46009911
前端每日实战：57# 视频演示如何用纯 CSS 创作一双黑暗中的眼睛
效果预览按下右侧的"点击预览"按钮可以在当前页面预览,点击链接可以全屏预览. https://codepen.io/comehope/pen/xzYVzO 可交互视频此视频是可 ...
Linux v4l2编程（摄像头信息采集）
基于Linux3.4.2,自己做一点儿视频信息采集及网络传输的小实验,边做边学,一些基础知识同步整理..... 1. 定义 V4L2(Video For Linux Two) 是内核提供给应用程序访问 ...
TI推出一款强大模拟设计与仿真工具TINA-TI 9.
德州仪器 (TI) 宣布推出一款基于 SPICE 的强大模拟设计与仿真工具 TINA-TI 9.1.该免费软件程序的最新版本与 7.0 版相比速度平均提高 5 倍,可帮助工程师在无任何节点或器件数量限 ...

C/C++ GBK和UTF8之间的转换

C/C++ GBK和UTF8之间的转换的更多相关文章

随机推荐

热门专题