2.数码相框-编码(ASCII/GB2312/Unicode)介绍

转载：https://www.cnblogs.com/lifexy/p/8485634.html

在上章-学习了数码相框的框架分析(1)了

本章主要内容如下:

1)熟悉ASCII/GB2312/Unicode编码
2)写应用程序,使LCD显示汉字和字符

大家都知道,数据传输的是二进制,而字符和汉字却有各种各样的,所以便通过二进制将字符和汉字编成一个字符集(charset).

1.而字符集(charset)又经历3个阶段

ASCII码

最早的计算机采用ASCII码,一个字节便包括了英文数字这些符号

GB2312编码

由于不支持中文,那时候的常用汉字就有6763个,所以中国人发明了GB2312(GB国标),汉字为2个字节,与ascll码兼容,后来又继续扩展汉字,所以又有了GBK编码.

GB2312编码是将字符进行一个分区处理,共有94个区,每个区有94个位,所以区位码范围为0000~9393

汉字分为了一级汉字(常用)和二级汉字(不常用).

其中GB2312分区表如下图所示:

比如“啊”,位于第16区第1位,也就是1500.

然后分别在区和位上加0xA1,便转换为了GB2312编码(编码从0xA1A1开始是为了兼容英文字符,)

所以“啊”的GB2312编码为: 0xB0A1

15(区)+0xA1=0xB0

00(位)+0xA1=0xA1

这种编码方式仅仅在中国行的通,若去浏览繁体字或日文时,便会出现乱码,因为繁体字使用的是Big5编码,日文则需要安装日本的Shift_JIS 编码才行.

在不同的国家的编码标准都不同,所以在PC里,使用ANSI编码来代表它们,比如中文PC里,ANSI编码代表GBK编码.

Unicode编码(统一世界所有符号)

包括中、日、韩、英文等字符,格式有utf-32、utf-16、utf-8

在PC，Unicode一般代表utf-16,而utf-8是单独列出来的,

utf-32

指每个字符都采用4个字节(32位),缺点在于浪费空间,比如:a=0x0000 0061,啊=0x0000554A.

utf-16(错一个字节,则整个乱码)

每个字符的长度为2字节或4字节,常用的都是2字节(包括汉字等). 比如: a=0x0061,啊=0x554A.

utf-8(容错能力高)

指每个字符的长度为1~4个字节,越常用的字符,字节越短,比如:a=0x61,啊=0xE5958A

可以通过utf-16转换过来,高4位表示有多少个字节,然后剩下的每个字节的高2位都为10(表示只有一个字节),剩下的值加起来就是utf-16编码,如下图所示:

如果是unicode转utf-8,则对应代码为:

int UnicodeToUtf8( unsigned short* src, unsigned short* putf8)

{

    int len = 0;

    while (*src)

    {

        if (*src < 0x80) //one byte

        {

            putf8[len++] = *src;

        }

        else if (*src < 0x800) //two byte

        {

            putf8[len++] = 0xC0 | (*src >> 6);

            putf8[len++] = 0x80 | ((*src) & 0x3F);

        }

        else

        {

            putf8[len++] = 0xE0 | (*src >> 12);　　　　//获取src高4位

            putf8[len++] = 0x80 | ((*src >> 6) & 0x3F);  //获取src 第6位,长度为3f(6位)

            putf8[len++] = 0x80 | (*src & 0x3F);　　　　//获取src低6位

        }

        src++;

    }

    putf8[len] = 0;

    return len;

}

int main()

{

unsigned short Unicode[2]={0x4e2d};　　//中的unicode码

unsigned short utf[4]={0,0,0,0};

UnicodeToUtf8(Unicode,utf); 

for(int i=0;i<4;i++)

 printf(" %x ",utf[i]);

return 0;

}

一般一个文件的开头会有标志,通过十六进制编辑文件,便可以看到

EF BB BF 表示utf-8

FE FF 表示utf-16大端(大开头,比如a=00 61)

FF FE 表示utf-16小端(小开头,比如a=61 00)

没有前缀表示ANSI格式

2.所以文件格式不同,执行的结果也不同

2.1我们下面代码为例:

#include <stdio.h>

int main(int argc,char **argv)

{

     int i=0;

     unsigned char s[]="abc中";

     while(s[i])

    {

       printf("%02x ",s[i]);

       i++;

    }

     printf("\n");

     return 0;

}

然后在PC上,另存为ANSI.c和UTF-8.c,编码分别选择ANSI(GBK编码)和UTF-8

2.2然后拖到linux里编译运行:

gcc -o ANSI ANSI.c

gcc -o UTF-8 UTF-8.c

3.如何解决文件格式不同,编码也不同的问题?

我们可以指定字符集(charset), 强制使它以什么编码格式解析

man gcc                //查看gcc使用手册

/charset                //搜索charset相关字

找到:

-finput-charset=charset  //表示源文件的编码方式, 默认以UTF-8来解析

-fexec-charset=charset   //表示可执行程序里的字时候以什么编码方式来表示，默认是UTF-8

3.1指定字符集(charset)

gcc -finput-charset=GBK  -fexec-charset=UTF-8    -o  utf-8_2   ANSI.c

如上图所示,通过参数,告诉gcc该文件是GBK编码,需要转换为UTF-8编码后,再编译,便解决了文件格式问题.

2.数码相框-编码(ASCII/GB2312/Unicode)介绍的更多相关文章

2.数码相框-编码(ASCII/GB2312/Unicode)介绍,并使LCD显示汉字字符(2)
在上章-学习了数码相框的框架分析(1)了本章主要内容如下: 1)熟悉ASCII/GB2312/Unicode编码 2)写应用程序,使LCD显示汉字和字符大家都知道,数据传输的是二进制,而字符和汉字 ...
字节的高低位知识，Ascii,GB2312,UNICODE等编码的关系与来历
很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们看到8个开关状态是好的,于是他们把这称为"字节". 再后来,他们又做了一些可以处理 ...
字符编码(ASCII，Unicode和UTF-8) 和大小端
本文包括2部分内容:“ASCII,Unicode和UTF-8” 和 “Big Endian和Little Endian”. 第1部分 ASCII,Unicode和UTF-8 介绍 1. ASCII码 ...
字符编码(ASCII，Unicode和UTF-8) 和大小端(zz)
本文包括2部分内容:“ASCII,Unicode和UTF-8” 和 “Big Endian和Little Endian”. 第1部分 ASCII,Unicode和UTF-8 介绍 1. ASCII码 ...
编码 ASCII, GBK, Unicode+utf-8
0. 1.参考网页编码就是那点事阮一峰字符编码笔记:ASCII,Unicode 和 UTF-8 2.总结美国 ASCII 码发音: /ˈæski/ :128个字符,只占用了一个字节的后面7位 ...
字符编码 ASCII、Unicode和UTF-8的关系
摘抄自廖雪峰教程字符编码我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题. 因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理.最早的计算机 ...
Java 字符编码 ASCII、Unicode、UTF-8、代码点和代码单元
1 ASCII码统一规定英语字符与二进制位之间的关系.ASCII码一共规定了128个字符的编码.例如,空格“SPACE”是32(二进制00100000),大写字母A是65(二进制01000001). ...
转载：从程序员的角度看ASCII, GB2312, UNICODE, UTF-8
以下内容转自博客:http://blog.chinaunix.net/uid-22670933-id-1771613.html. 一.字符编码是怎么回事 0. 概念字节是计算机的最基本存储单位,一个 ...
字符编码ascii、unicode、utf-‐8、gbk 的关系
ASIIC码: 计算机是美国人发明和最早使用的,他们为了解决计算机处理字符串的问题,就将数字字母和一些常用的符号做成了一套编码,这个编码就是ASIIC码.ASIIC码包括数字大小写字母和常用符号,一共 ...

随机推荐

NVIDIA显卡电源不足
NVIDIA显卡 Ubuntu16.04安装驱动后出现问题:Unable to determine the device handle for GPUXXX 安装NVIDIA驱动后输入:nvidia- ...
解决jdk卸载出错2502、2503
之前装的jdk1.6,后来软件要求用1.8,就卸载了1.6,卸载的时候出现了这个问题.后来又有其他软件用1.8出错,就又要装1.6,脑壳疼.网上建议先卸载1.8再装低版本,结果卸载1.8,又出现错误2 ...
(2) laravel App目录结构说明
应用的核心代码位于 app 目录下,默认情况下,该目录位于命名空间 App 下, 并且被 Composer 通过 PSR-4自动载入标准自动加载. app 目录下包含多个子目录,如Console.H ...
sql语句-按照汉字拼音首字母排序
在oracle9i中新增了按照拼音.部首.笔画排序功能.设置NLS_SORT值 SCHINESE_RADICAL_M 按照部首(第一顺序).笔划(第二顺序)排序SCHINESE_STROKE_M 按照 ...
eNSP——静态路由的基本配置
原理: 静态路由是指用户或网络管理员手工配置的路由信息.当网络的拓扑结构或链路状态发生改变时,需要网络管理人员手工修改静态路由信息. 相比于动态路由协议,静态路由无需频繁地交换各自的路由表,配置简单, ...
Spring Bean装配详解（五）
装配 Bean 的概述前面已经介绍了 Spring IoC 的理念和设计,这一篇文章将介绍的是如何将自己开发的 Bean 装配到 Spring IoC 容器中. 大部分场景下,我们都会使用 Appl ...
Can you answer these queries III
Can you answer these queries III 题目:洛谷 SPOJ [题目描述] 给定长度为N的数列A,以及M条指令,每条指令可能是以下两种之一: 1.“0 x y”,把A[x]改 ...
排查java 内存CPU报警
#!/bin/bash source /etc/profile #接收外部传入PID,任选一种 #servicePid=$1 headPid=`ps auxw|sort -rn -k3|head -4 ...
Flask 中command的使用
其实这个标题有点大了,只是记录以一下flask中command的一个使用方式,具体用法还需要看相关文档. 之前的项目中需要加一个定时任务所以在flask中写了个任务执行. 首先需要在manage.py ...
Java中自增（++）和赋值（=）运算效率比较
前言将一个int型数组x[]从初值0变成1.有两种做法: // 只考虑后自增 int length = x.length; for (int i = 0; i < length; i++) ...

2.数码相框-编码(ASCII/GB2312/Unicode)介绍

2.数码相框-编码(ASCII/GB2312/Unicode)介绍的更多相关文章

随机推荐

热门专题