ASCII和万国码

什么是ASCII

计算机的起初是使用内存中的0101来表示数和机器码。如何用内存中的bit来表示文本一直困扰着人们，毕竟人类主要的信息展示是文字，而不是苦涩的0101。后来ASCII码的发明成功的解决了“部分”问题。说白了ASCII码就是解决了一个以数字形式表示文本的问题。

ASCII码全称为美国信息交换标准码“American Standard Code for Information Interchange”。目前它已被国际标准化组织（ISO）定为国际标准，称为ISO 646标准。适用于所有拉丁文字字母，ASCII码有7位码和8位码两种形式。在计算机的存储单元中，一个ASCII码值占一个字节(8个二进制位)

7位ASCII码是用七位二进制数进行编码的，可以表示128个字符。其最高位(b7)用作奇偶校验位。所谓奇偶校验，是指在代码传送过程中用来检验是否出现错误的一种方法，一般分奇校验和偶校验两种。奇校验规定：正确的代码一个字节中1的个数必须是奇数，若非奇数，则在最高位b7添1；偶校验规定：正确的代码一个字节中1的个数必须是偶数，若非偶数，则在最高位b7添1。

第0～32号及第127号(共34个)是控制字符或通讯专用字符，如控制符：LF（换行）、CR（回车）、FF（换页）、DEL（删除）、BEL（振铃）等；通讯专用字符：SOH（文头）、EOT（文尾）、ACK（确认）等；

第33～126号(共94个)是字符，其中第48～57号为0～9十个阿拉伯数字；65～90号为26个大写英文字母，97～122号为26个小写英文字母，其余为一些标点符号、运算符号等。

让我们到幕后去看看，看看ASCII码是如何以数字形式表示文本的。举2个例子：

如ASCII码'A' -- 其内存存储字节2进制表示为"01000001" --- 其16进制值为0x41 --- 其10进制值为65(这里的值实际上是'A'在ASCII码表中编号)；

验证过程：

char c = 'A';

printf("%c\n", c);

printf("%x\n", c);

printf("%d\n", c);

又如 ASCII码'6' -- 其内存存储字节2进制表示为"00110110" --- 其16进制值为0x36 --- 其10进制值为54(这里的值实际上是'6'在ASCII码表中的编号)；

验证过程：

char c = '6';

printf("%c\n", c);

printf("%x\n", c);

printf("%d\n", c);

一个字符串在内存中就是按照逐个字符的ASCII码连续存放的，我们在传送字符串时一般无需做特殊转换。

FTP协议中有两种通讯方式，其中一种是ASCII码方式，即文本方式）这里也举例说明：比如我们要传送数值123, 123数值用16进制表示为0x7b，以二进制表示为01111011，那么以二进制方式通讯，01111011就是我们真实传送的数据，但是如果以ASCII码方式通讯，则完全不同了，如果你还传送01111011的话，对方那边的得到的将是'{'('{'对应的ASCII码用16进制表示为7b)。正确的方式就是将123每位上的数字转化为其相应的ASCII码，然后传送。这里'1'、'2'和'3'对应的ASCII码用16进制表示分别为0x31、0x32和0x33。这样组合起来后要传送的数据应为"001100010011001000110011"。

什么是UNICODE

Unicode码也是一种国际标准编码，采用二个字节编码，与ANSI码不兼容，对于ASCII字符它也使用两字节表示。

起初都是用ASCII码来表示字符。这些字符可以是字母。数字。标点符号和控制符。用这种编码来表示英文在内的字符不成问题的。但要表示其它语言文字如。阿拉伯文。中文。日文。维文。哈文…必须进行扩充

对于中文而言，则必须使用两个字节(byte)来代表一个字符，具第一个字节必须大于127(所以我们有许程序判断中文都是以ascii码大于127作为条件)。以上用两个字节来表示一个中文的方式，在习惯上称为双字节(即DBCS: Double-Byte Character Set)，而相对之下，英文的字符码就称为单字节SBCS(Single-Byte Character Set)。

虽然双字节(DBCS)足以解决中英文字符混合使用情况，但对于不同字符系统而言，必须经过字符码转换，非常麻烦。例如：中英文混合情况等。为解决这个问题，国际标准组织于1984年4月成立ISO/IEC JTC1/SC2/WG2工作组。针对各国文字、符号进行统一性编码。1991年美国跨国公司成立Unicode Consortium。并于1991年10月与WG2达成协议。采用同一编码字集。目前Unicode是采用16位编码体系。其字符集内容与ISO10646的BMP（Basic Multilingual Plane）相同。Unicode于1992年6月通过DIS（Draf International Standard）。目前版本V2.0于1996公布。内容包含符号6811个。汉字20902个。韩文拼音11172个。造字区6400个。保留20249个。共计65534个。

UNICODE同现在流行的代码页最显著不同点在于：UNICODE是两字节的全编码。对于ASCII字符它也使用两字节表示。代码页是通过高字节的取值范围来确定是ASCII字符。还是汉字的高字节。如果发生数据损坏。某处内容破坏。则会引起其后汉字的混乱。UNICODE则一律使用两个字节表示一个字符。最明显的好处是它简化了汉字的处理过程。

Unicode的最初目标。是用1个16位的编码来为超过65000字符提供映射。但这还不够。它不能覆盖全部历史上的文字。也不能解决传输的问题(implantation head-ache's)。尤其在那些基于网络的应用中。因此。Unicode用一些基本的保留字符制定了三套编码方式。它们分别是UTF-8，UTF-16和UTF-32。正如名字所示。在UTF－8中。字符是以8位序列来编码的。用一个或几个字节来表示一个字符。这种方式的最大好处。是UTF－8保留了ASCII字符的编码做为它的一部分。例如。在UTF－8和ASCII中。“A”的编码都是0x41.UTF－16和UTF－32分别是Unicode的16位和32位编码方式。考虑到最初的目的。通常说的Unicode就是指UTF-16。

Unicode的特点是：

不管哪一国的字符码均以两个Byte表示，例如"A"在Unicode则是16进制 41和00的组合，即4100，高位41(转换为Ascii码即是65=A)，Windows NT/2000以Unicode来表示字符集，例如你可以看到MS SQL Server中产生的SQL文件可以选择是以Unicode来保存还是以普通格式来保存，如果你以Unicode保存，则在95/98平台许多软件均无法正确读出其格式。

同时你还可以注意到95/98中API定义，许多名称结尾是有一个A的，例如 WriteProfileStringA

而在NT/2000操作系统中，提供了两套API，另外一个命令是WriteProfileStringW，以W 结尾的API只适用于NT / 2000。（在NT中使用以W结尾的API函数效率比A结尾的要快，因为省去了Unicode和DBCS/SBCS的转换过程）

这样我们经常要用到的判断字符串长度的函数，在NT和95/98下执行结果不同，如下

95/98中： len("abc中国") 返回 7 (因为每个中文作为两个Ascii码来看)

NT/2000中： len("abc中国") 返回 5 (因为每个字符都作为一个Unicode来看)

ASCII和万国码的更多相关文章

[编码]ASCII、GBK、Unicode(万国码) 和 UTF-8
American ASCII编码 (American Standard Code for Information Interchange,美国信息互换标准代码) China gbk编码 ...
Unicode（统一码、万国码、单一码）
Unicode(统一码.万国码.单一码)是一种在计算机上使用的字符编码.它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言.跨平台进行文本转换.处理的要求.1990年开始研发,199 ...
关于excel导入手机号提取时被自动加上多余空万国码的问题
//去除excel粘贴自动加上的空万国码“\U202d” "U202c" //去除excel粘贴自动加上的空万国码“\U202d” "U202c" String ...
Python字符和字符值(ASCII或Unicode码值)转换方法
Python字符和字符值(ASCII或Unicode码值)转换方法这篇文章主要介绍了Python字符和字符值(ASCII或Unicode码值)转换方法,即把字符串在ASCII值或者Unicode值之 ...
【python路飞】编码 ascii码（256位 =1个字节）美国；unicode（万国码）中文一共9万个用4个字节表示这9万个子 17位就能表示
8位一个字节 1024字节 1KB 1024KB 1MB ASCII码不能包含中文.创建了unicode,一个中文4个字节.UTF-8一个中文3个.GBK中国人用的只包含中文2个字节升级 Un ...
DAY2---Python---While循环,格式化输出,运算符,编码
一.while循环 while 条件: 代码块(循环体) 流程:判断条件是否为真,如果是真,执行代码块.然后再次判断条件是否为真,如果为真继续执行代码块... 直到条件变成了假,退出循环 #死循环:永 ...
Python *Mix_w6
is 和 == 小数据池 python中有两个数据类型存在小数据池:数字int范围 -5 ~ 256 字符串中如果有特殊字符+ - * / @ 等等,他们的内存地址就可能不一样字符串中单个*20以内 ...
2019.3.28 S21 day02pyth笔记总结
昨日内容补充: 1.字符串:'中国' 'Hello' 字符:中是一个字符,e是一个字符字节:中是3个字节,e是1个字节位:01010101是8位,其中0或1分别是1位 unicode用于内存 ...
二次编码深浅拷贝 is和==
1.二次编码 ascii 不支持中文 gbk 支持中文 2个字节包含ascii Unicode 万国码 python3 内存Unicode utf-8 可变的长度英文 1字节欧洲2个字节亚洲3 ...

随机推荐

hdu1176 dp
题意:在一条 0 ~ 10 的坐标轴上,在整数点上会掉烙饼,一个人第 0 秒站在坐标 5 处,每秒他能够左右移动一个单位的坐标或不移动,并接住该坐标位置当前时间落下的烙饼,(例如第0秒他在坐标5处,第 ...
makefile，让编译更简单
陈皓 (CSDN) 概述—— 什么是makefile?或许很多Winodws的程序员都不知道这个东西,因为那些Windows的IDE都为你做了这个工作,但我觉得要作一个好的和professional的 ...
encode decode enumerate
format的用法 print(format('aa','>20')) print(format('aa','<20')) print(format('aa','^20')) 打印结果如下 ...
JVM监控
jconsole 说明: 首先JConsole这个是JDK里面自带的工具在JAVA_HOME/bin目录下,今天主要测试远程监控JVM 第一步:设置好需要远程机器的Tomcat 修改Tomcat下 ...
TFTP error: 'Only absolute filenames allowed' (2)
hisilicon # tftp 0x82000000 u-boot-hi3518ev200.bin Hisilicon ETH net controler MAC: ----- eth0 : phy ...
MQ的不足
调用方实时依赖执行结果的业务场景,请使用调用,而不是MQ.MQ是互联网分层架构中的解耦利器,那所有通讯都使用MQ岂不是很好?这是一个严重的误区,调用与被调用的关系,是无法被MQ取代的.比如用户登录场景 ...
PHP 小技巧之如何避免参数多次传递？
开发中经常遇到函数参数传递的问题:比如 A调用B,B调用C,C调用D, A->B->C->D 而D方法可能需要一个参数,这个参数只能在A中获取(比如A是控制器方法),这个参数这样一级 ...
MVC 自定义以表达式树为参数的htmlhelper
public static MvcHtmlString Try<TModel, TProperty>( this HtmlHelper<TModel> htmlHelper, ...
Linux 后台进程管理
fg.bg.jobs.&.ctrl + z命令一. &加在一个命令的最后,可以把这个命令放到后台执行 ,如gftp &,二.ctrl + z可以将一个正在前台执行的命令放到后台 ...
BASIC-12_蓝桥杯_十六进制转八进制
总结: 1.使用库函数可有效节省空间,但时间花费较多; 2.由于本题的输入数据较大,又限制时间,故要注意利用空间换时间; 3.使用顺序结构换取最小运行时间; 示例代码: #include <st ...

ASCII和万国码

ASCII和万国码

ASCII和万国码的更多相关文章

随机推荐

热门专题