众所周知,一个文字从输入到显示到存储是有一个固定过程的,其过程为:输入码(根据输入法不同而不同)→机内码(根据语言环境不同而不同,不同的系统语言编码也不一样)→字型码(根据不同的字体而不同)→存储码(根据保存的编码类型不同而不同).不同的存储码之间又有什么异同呢? 一.ASCII系列编码 首先来说明ASCII码(American Standard Code for Information Interchange,美国标准信息交换码),这个编码的时代就久远了,是由美国国家标准局(ANSI)制定,目…
8位一个字节  1024字节 1KB   1024KB 1MB ASCII码不能包含中文.创建了unicode,一个中文4个字节.UTF-8一个中文3个.GBK中国人用的只包含中文2个字节 升级 Unicode 一个中文用3个字节表示 python2打印中文出错  默认不包含中文   编码方式用UTF-8表示中文. 中文 英文 日语 韩语 UTF-8是 unicode 的升级版   UTF-8一个中文用3个字节表示: GBK 国内使用 一个中文用2个字节…
American ASCII编码 (American Standard Code for Information Interchange,美国信息互换标准代码)  China    gbk编码      通称他们叫做 “DBCS“(Double Byte Charecter Set 双字节字符集)   统一             Unicode        统一码.万国码   utf-8      互联网上使用最广的一种unicode的实现方式,为传输而设计的编码.特点:变长编码方式.统一无…
字符编码: Python字符编码贯穿Python学习的始终,现在应用的是Python2中字符编码的问题是很多的. 这次是要彻底解决Python字符编码的问题!!! 1 字符编码的发展过程: 1 .ASCII :256 美国需要128个字符,只需要7位 --美国 2.扩展ASCII : 8 比特位 --拉丁 3.GB2312 : 中文扩展ASCII 两个字节都大于127 --中国 4.GBK : 两个字节,第一个字节大于127 5.Unicode是一种编码方式 两个字节 16 至少两个字节:2^1…
day06 python   一. is 和 == 的区别     == :比较, 判断, 比较的是值: 可以比较数字, 字符串, 列表, 元组, 字典,等     is :是 比较, 比较的是内存地址(id()取对象的内存地址) a = 'bajie' b = 'bajie' print(a is b)   #True   a = 10 b = 10 print(a is  b)      #True   #===========================# #小数据池 #为了节省内存空…
原文网址:http://blog.csdn.net/trochiluses/article/details/16825269 摘要:在进行python脚本的编写时,如果我们用python来处理网页数据或者进行与中文字符有关的处理工作,经常出现这样的出错信息:SyntaxError: Non-ASCII character '\xe6' in file ./filename.py on line 3, but no encoding declared.本文主要讲解python中与unicode和中…
以下内容说的都是 python 2.x 版本 简介 基本概念 Python "帮"你做的事情 推荐姿势 基本概念 我们看到的输入输出都是'字符'(characters),计算机(程序)并不能直接处理,需要转化成字节数据(bytes),因为程序只能处理 bytes 数据. 例如:文件.网络传输等,处理的都是 bytes 数据--二进制数字. ASCII / Unicode 孤立的 byte 是毫无意义的,所以我们来赋予他们含义.就引入'字符集'的概念,'字符集'就是一个码位(code p…
二进制------>ASCII:只能存英文和拉丁字符.一个字符占用一个字节,8位------------>gb2312:智能6700多个中文, 1980年 gbk1.0:存了2万多字符 1995年 gb18030:2w7汉字 2000年------------>其他国家大量编码 ------------------------>统一的万国码 unicode:utf-32 一个字符占4个字节------------------------>统一的万国码 unicode:utf-…
名称 说明 ASCII 只能存英文和拉丁字符,一个字符占一个字节,8位. ASCII 码是不支持中文的,支持中文的第一张表是 GB2312 GB2312 支持中文,收录了 7445个字符 GBK1.0 支持中文,收录了 21886个字符 GB18030 收录了 27484个汉字,及藏文,维吾尔文等少数名族文字 unicode 万国码,支持所有国家和地区的编码,向下兼容 gb2312, gbk UTF-32 一个字符占用4个字节 UTF-16 一个字符占2个字节或2个以上 UTF-8 unicod…
一.编码与解码 编码的过程其实就是采用一定的编码格式将unicode字符转换成str字符的过程 非ASCII码字符按字节为单位被编码成十六进制转义字符 解码采用的编码格式跟设置和环境有关 ascii 码: 不支持 中文 支持 英文 数字 符号 8位 一个字节 gbk码 国标: 支持 中文,英文,数字,符号 英文 16位 二个字节 中文 16位 二个字节 unicode 万国码 支持 中文,英文,数字,符号 英文 32 位 四个字节 中文 32位 四个字节 utf-8 长度可变的万国码 最少用8位…