C：汉字存储

问题

C语言中汉字如何存储？梳理思路！

答案

在计算机中，一个英文字符占1个字节，汉字占两个字节，如果用char字符数组存储字符时，需要在最后面自动加上一个字节的结束符“\0”

汉字转进制输出

比如：

    //英文字符，占4个字节

    char Info[] = "abc";

    printf("%s\n",Info);

    printf("Info长度：%d\n",sizeof(Info));

    //中文，占5个字节

    char Han[]="中国";

    printf("%s\n",Han);

    printf("Han长度：%d\n",sizeof(Han));

不同的编码方式，汉字存储的字节数量不同，比如：

GB2312编码：一个汉字两个字节

UTF-8编码：一个汉字三个字节

GBK编码：一个汉字两个字节

UTF-16：一个汉字3个字节

GB2312 --> GBK --> GB18030 是中文编码的三套方案，出现的时间从早到晚，收录的字符数目依次增加，并且向下兼容。GB2312 和 GBK 收录的字符数目较少，用 1~2个字节存储；GB18030 收录的字符最多，用1、2、4 个字节存储。
1) 从整体上讲，GB2312 和 GBK 的编码方式一致，具体为：

对于 ASCII 字符，使用一个字节存储，并且该字节的最高位是 0，这和 ASCII 编码是一致的，所以说 GB2312 完全兼容 ASCII。
对于中国的字符，使用两个字节存储，并且规定每个字节的最高位都是 1。

例如对于字母A，它在内存中存储为 01000001；对于汉字中，它在内存中存储为 11010110 11010000。由于单字节和双字节的最高位不一样，所以字符处理软件很容易区分一个字符到底用了几个字节。
2) GB18030 为了容纳更多的字符，并且要区分两个字节和四个字节，所以修改了编码方案，具体为：

对于 ASCII 字符，使用一个字节存储，并且该字节的最高位是 0，这和 ASCII、GB2312、GBK 编码是一致的。
对于常用的中文字符，使用两个字节存储，并且规定第一个字节的最高位是 1，第二个字节的高位最多只能有一个连续的 0（第二个字节的最高位可以是 1 也可以是 0，但是当它是 0 时，次高位就不能是 0 了）。注意对比 GB2312 和 GBK，它们要求两个字节的最高位为都必须为 1。
对于罕见的字符，使用四个字节存储，并且规定第一个和第三个字节的最高位是 1，第二个和第四个字节的高位必须有两个连续的 0。

例如对于字母A，它在内存中存储为 01000001；对于汉字中，它在内存中存储为 11010110 11010000；对于藏文གྱུ，它在内存中的存储为 10000001 00110010 11101111 00110000。

字符处理软件在处理文本时，从左往右依次扫描每个字节：

如果遇到的字节的最高位是 0，那么就会断定该字符只占用了一个字节；
如果遇到的字节的最高位是 1，那么该字符可能占用了两个字节，也可能占用了四个字节，不能妄下断论，所以还要继续往后扫描：
- 如果第二个字节的高位有两个连续的 0，那么就会断定该字符占用了四个字节；
- 如果第二个字节的高位没有连续的 0，那么就会断定该字符占用了两个字节。

可见，当字符占用两个或者四个字节时，GB18030 编码要检测两次，处理效率比 GB2312 和 GBK 都低。

GBK 于 1995 年发布，这一年也是互联网爆发的元年，国人使用电脑越来越多，也许是 GBK 这头猪正好站在风口上，它就飞起来了，后来的中文版 Windows 都将 GBK 作为默认的中文编码方案。
注意，这里我说 GBK 是默认的中文编码方案，并没有说 Windows 默认支持 GBK。Windows 在内核层面使用的是 Unicode 字符集（严格来说是 UTF-16 编码），但是它也给用户留出了选择的余地，如果用户不希望使用 Unicode，而是希望使用中文编码方案，那么这个时候 Windows 默认使用 GBK（当然，你可以选择使用 GB2312 或者 GB18030，不过一般没有这个必要）。

汉字编码输出

汉字编码并输出示例：

    //汉字编码

    unsigned char Han[]="中国";

    printf("汉字：%s\n",Han);

    printf("十六进制:");

    for(int i=0;i<4;i++)

    {

        printf("%X",Han[i]);

    }

    printf("\n十进制：");

    for(int i=0;i<4;i++)

    {

        printf("%d",Han[i]);

    }

汉字编码输出存储

汉字编码存储示例：

	//汉字编码存储

	unsigned char Han[] = "中国";

	FILE* fp = fopen("out.txt", "w");//输出

	printf("汉字：%s\n", Han);

	fputs("十六进制:", fp);

	for (int i = 0; i < 4; i++)

	{

		fprintf(fp, "%X", Han[i]);

	}

	fseek(fp, 0, SEEK_END);

	fputs("\n十进制:", fp);

	for (int i = 0; i < 4; i++)

	{

		fprintf(fp, "%d", Han[i]);

	}

	fclose(fp);

参考

1、汉字的存储

2、使用数组来储存中文（字符串）

3、C语言:GB2312编码和GBK编码，将中文存储到计算机

4、C语言/C++字符编码方式解析

C：汉字存储的更多相关文章

mysql 编码和汉字存储占用字节问题的探索
MySql 5.5 之前,UTF8 编码只支持1-3个字节,只支持BMP这部分的unicode编码区,BMP是从哪到哪?基本就是 0000 ~ FFFF 这一区. 从MySQL 5.5 开始,可支持4 ...
Oracle字符编码与汉字存储长度的处理
执行如下语句,查看汉字在数据库中所占的字节: select vsize('汉') from dual; 一般情况下,得到的结果大部分为值:2 或 3 一般linux下安装oracle数据库,默认字符编 ...
Oracle 汉字在不同字符集下所占字节
今天发现了一个问题,一个长度设置为2000字节的字段,插入一条长度为1000的汉字数据,竟然报错了. 一个汉字占两个字节,按理说刚好是2000个字节.但通过查看日志,发现插入数据的长度为3000字节. ...
VB6单片机编程中的汉字处理
在DOS时代,拥有一个华丽的汉字菜单几乎是每个高档中文应用程序必须的包装.中文Windows操作系统的出现使得高级开发平台实现全中文的提示和界面非常容易和方便.在一般的应用程序中已经很少需要去专门考虑 ...
java中文乱码解决之道（二）-----字符编码详解：基础知识 + ASCII + GB**
在上篇博文(java中文乱码解决之道(一)-----认识字符集)中,LZ简单介绍了主流的字符编码,对各种编码都是点到为止,以下LZ将详细阐述字符集.字符编码等基础知识和ASCII.GB的详情. 一.基 ...
HTML基础笔记-02
---恢复内容开始--- 学习网站:W3School 一.HTML的认识纯文本语言:只显示内容,不显示样式,也不能描述语义的文档,但是也不会乱码语义:数据的含义就是语义,数据是符号,在这表示标签 ...
C#编程总结（九）字符编码
C#编程总结(九)字符编码相信大家一定遇到过乱码的问题,为什么会乱码呢?输出的数据怎么就跟输入的不一样呢? 最近在总结加密问题,也遇到了同样的困扰.所以今天来集中解决这个问题. 什么是字符? 字符是 ...
WGZX:javaScript 学习心得--2
转贴javascript心得(二) 标签: javascriptajaxweb开发htmlfirefox框架 2008-09-11 10:56 636人阅读评论(0) 收藏举报分类: UI(2 ...
java中几种常见字符集与乱码介绍
1. ASCII和Ansi编码字符内码(charcter code)指的是用来代表字符的内码 .读者在输入和存储文档时都要使用内码,内码分为单字节内码 -- Single-Byte chara ...

随机推荐

Vue之前后端交互
Vue之前后端交互一.前后端交互模式接口调用方式原生ajax 基于jQuery的ajax fetch axios 异步 JavaScript的执行环境是「单线程」所谓单线程,是指JS引擎中负责 ...
GO语言异常处理02---返回错误
package main import ( "errors" "fmt" "math" ) /*计算圆面积,同时返回[结果-错误对]*/ f ...
GO语言面向对象04---接口的继承
package main import "fmt" type Animal interface { Eat(food string) (shit string) GoDie() } ...
Win7 64 + mysql5.6.24（.zip）不知道root密码的情况下重设密码
解决方式第一步:在运行(常常在附件中)里输出cmd,右键以系统管理员身份登陆: 第二步:停止mysql服务,命令为:net stop mysql 注意,若不行将当前目录切换到mysql\bin目录 ...
TVM图优化与算子融合
TVM图优化与算子融合计算图的定义 Computational graphs: a common way to represent programs in deep learning framewo ...
MindSpore循环神经网络
MindSpore循环神经网络一．神经网络的组成神经元模型:首先简单的了解以下构成神经网络的最基础单元:神经元.每个神经元与其它神经元相连,处于激活状态时,就会向相连的神经元发送相应信号.从而改 ...
编译原理-一种词法分析器LEX原理
1.将所有单词的正规集用正规式描述 2.用正规式到NFA的转换算得到识别所有单词用NFA 3.用NFA到DFA的转换算法得到识别所有单词用DFA 4.将DFA的状态转换函数表示成二维数组并与DF ...
MySQL面试题汇总
事务是什么? 一系列操作,要么全部完成,要么一个都不做事务的ACID特性原子性:一系列操作要么都执行,要么都不执行一致性:事务执行前后数据完整性不变,如转账前后总金额不变隔离性:多个事务并发访 ...
RobotFramework常用断言关键字
变量或者关键字内容判断关键字 1.内容包含或者不包含:should contain . should not contain 与should contain x times *** Test Case ...
CSS基础知识及其基本语法
一.什么是CSS CSS 是层叠样式表( Cascading Style Sheets ) 的简称. 有时我们也会称之为CSS 样式表或级联样式表. CSS 也是一种标记语言 CSS 主要用于设置HT ...