ASCII ASCII,GB2312,GBK,GB18030依次增加,向下兼容. 手机只需要支持GB2312 电脑中文windows只支持GBK 发展历程 如果你使用编译器是python2.0版本,默认编码是ascii,就会报错. 必须加上 就可以在python2执行了.…
PS:要转载请注明出处,本人版权所有. PS: 这个只是基于<我自己>的理解, 如果和你的原则及想法相冲突,请谅解,勿喷. 环境说明   普通的linux 和 普通的windows.   VS2015 和 GCC 7.0 前言   曾记得,我在(https://blog.csdn.net/u011728480/article/details/100277582 <数与计算机 (编码.原码.反码.补码.移码.IEEE 754.定点数.浮点数)>)里面说过,计算机里面存储了数值和符号.…
前一篇博文:ANSI是什么编码?中有这样一段小故事: 话说计算机是由美国佬搞出来的嘛,他们觉得一个字节(可以表示256个编码)表示英语世界里所有的字母.数字和常用特殊符号已经绰绰有余了(其实ASCII只用了前127个编码).后来欧洲人不干了,法国人说:我需要在小写字母加上变音符号(如:é),德国人说:我也要加几个字母(Ä ä.Ö ö.Ü ü.ß).于是,欧洲人就将ASCII没用完的编码(128-255)为自己特有的符号编码(后来称之为“扩展字符集”).等到我们中国人开始使用计算机的时候,尼玛,2…
 从GB2312.GBK 到 GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有同样的编码,后面的标准支持很多其它的字符.在这些编码中,英文和中文能够统一地处理. 区分中文编码的方法是高字节的最高位不为 0. 依照程序猿的称呼,GB2312.GBK 到 GB18030 都属于双字节字符集 (DBCS). 下面是这四种字符集的包括关系:GB2312 < GBK < GB18030 < UTF8 -----------------------------------…
[1]ASCII 每个字符占据1bytes(字节),第一次以规范标准发表是在1967年,最后一次修订是在1986年.用二进制表示的话最高位必须为0(扩展的ASCII不在考虑范围内),因此ASCII只能表示128个字 [2]GB2312 最早一版的中文编码(1980年),每个字占据2bytes.由于要和ASCII兼容,那这2bytes最高位不可以为0了(否则和ASCII会有冲突).在GB2312中收录了6763个汉字以及682个特殊符号,已经囊括了生活中最常用的所有汉字. [3]GBK 由于GB2…
原文出处:http://www.blogjava.net/xcp/archive/2009/10/29/coding2.html 最近老为编码问题而烦燥,下定决心一定要将其弄明白!本文主要总结网上一些朋友提供的 ascii,ISO-8859-1,unicode, utf8,gb2312,big5,gbk,gb18030等几种常区别. 1. ASCII码    目前计算机中用得最广泛的字符集及其编码,是由美国国家标准局(ANSI)制定的ASCII码(American Standard Code f…
最近一直在看廖雪峰老师的python网上教程,python内容简单易理解,就没整理,但是字符串编码作为一直困扰自己的问题,看了几遍文章,最终还是将其整理如下,本篇博客总结自廖雪峰老师的网上教程:http://www.liaoxuefeng.com/ 首先我们要明确三者出现的时间依次是:ASCII,Unicode,utf-8,那么为什么这样的顺序出现,就是我们记住这些编码必须要知道的. 计算机是美国人发明的,而英文中只有127个字母,也就是我们常说的ASCII码表示的,因此8位二进制足以表示,因此…
文章内容深度较浅,详细了解可到下链接:https://blog.csdn.net/QuinnNorris/article/details/78705723; 总结了以下几种编码方式: ASCII.GBK(GB2312.GB18030).Unicode.UTF-8 1.1.ASCII American Standard Code for Information Interchange 最早的编码,一个字符一个字节.没有中文字符,用这个编译中文就会乱码. 一个字节8个比特,最多表示127个字符,2^…
http://www.imkevinyang.com/2009/02/字符编解码的故事(ascii,ansi,unicode,utf-8区别).html 很久很久以前,有一群人,他们决定用8个可以开合的晶体管来组合成不同的状态,以表示世界上的万物.他们认为8个开关状态作为原子单位很好,于是他们把这称为"字节". 再后来,他们又做了一些可以处理这些字节的机器,机器开动了,可以用字节来组合出更多的状态,状态开始变来变去.他们看到这样是好的,于是它们就这机器称为"计算机"…
GB2312 收录简化汉字及符号.字母.日文假名等共7445个图形字符,其中汉字占6763个 每个符号都用两个字节表示,每个字节均采用七位编码表示,习惯上 第一个字节是高字节,第二个字节是低字节 GB2312的编码范围为2121H-777EH,与ASCII有重叠,通行方法是将GB码两个字节的最高位置1以示区别 GBK 由于GKB收录的汉字较少以及配合UNICODE的实施,GBK 产生了 向下兼容GB2312 双字节表示 GBK共收入21886个汉字和图形符号,包括: GB2312中的全部汉字.非…