字符编码的发展: ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,其最多只能用 8 位来表示(一个字节),即:2**8 = 256-1,所以,ASCII码最多只能表示 255 个符号. 为了处理汉字,程序员设计了用于简体中文的GB2312和用于繁体中文的big5. GB2312(1980年)一共收录了7445个字符,包括6763个汉字和68…
本章节内容导航: 1.字符编码:人识别的语言与机器机器识别的语言转化的媒介. 2.字符与字节:字符占多少个字节,字符串转化 3.文件操作:操作硬盘中的一块区域:读写操作 注:浅拷贝与深拷贝 用法: dic={'name':'zhaokang','age':18,'aa':[12,13,14]} l.copy() 浅拷贝:会重新开辟内存地址去存储值的内存地址,但值得内存地址指向的还是需要拷贝的值的内存地址. 深拷贝:会重新开辟内存地址去存储值得内存地址,但是值的内存地址指向的是新的一个内存地址,如…
字符编码: Python字符编码贯穿Python学习的始终,现在应用的是Python2中字符编码的问题是很多的. 这次是要彻底解决Python字符编码的问题!!! 1 字符编码的发展过程: 1 .ASCII :256 美国需要128个字符,只需要7位 --美国 2.扩展ASCII : 8 比特位 --拉丁 3.GB2312 : 中文扩展ASCII 两个字节都大于127 --中国 4.GBK : 两个字节,第一个字节大于127 5.Unicode是一种编码方式 两个字节 16 至少两个字节:2^1…
Python27字符编码详解 声明 一 字符编码基础 1 抽象字符清单ACR 2 已编码字符集CCS 3 字符编码格式CEF 31 ASCII初创 311 ASCII 312 EASCII 32 MBCSDBCSANSI本地化 321 GB2312 322 GBK 323 GB18030 33 Unicode国际化 331 UTF-8 332 UTF-16 333 UTF-32 334 字节序问题 335 编码适用场景 4 字符编码方案CES 5 中文字符乱码Mojibake 51 未指定编码格…
原因 近期,用Python处理一些中文的字符串,但是用Python读取文件的中文字符和在代码中输入的中文字符,在判断处理时,例如判断“相等”或者“包含”,总是不能判断,相等或者包含都不起作用.看了字符的编码,源文件输入的中文字符,是2个字节表示,读入的文件,是3个字节表示.在网上找了很多资料,大多和我的问题不想关,这里就根据自己的领悟和网上不错的资源跟大家分享一下. 问题分析 不要把Python和Java混淆,Python是脚本语言,不会编译生成可执行文件,而Java会编译代码,形成可执行的cl…
一 .了解字符编码的知识储备 1计算机基础知识 1.2文本编辑器存取文件的原理(nodepat++,Pycharm,word) #.打开编辑器就打开了启动了一个进程,是在内存中的,所以,用编辑器编写的内容也都是存放与内存中的,断电后数据丢失 #.要想永久保存,需要点击保存按钮:编辑器把内存的数据刷到了硬盘上. #.在我们编写一个py文件(没有执行),跟编写其他文件没有任何区别,都只是在编写一堆字符而已. 1.3Python解释器执行py文件的原理,例如Python test.py #第一阶段:P…
距离上一篇的python --- 字符编码学习小结(一)已经过去2年了,2年的时间里,确实也遇到了各种各样的字符编码问题,也能解决,但是每次都是把所有的方法都试一遍,然后终于正常.这种方法显然是不科学的,本质上不理解问题产生的原因,所以遇到问题,只能先用万能钥匙,不行的话再逐个换.2年的时间积累和学习目前对此的了解又深刻了一点. 一.常见的编解码问题: 先来说几个常见的问题吧. 这2个问题,都是最最常见,又最基本典型的问题,又最基本的2个问题,从这2个问题出发,弄清楚问题产生的原因,后面很多问题…
通过下面的练习,加深对python字符编码的认识 # \x00 - \xff 256个字符 >>> a = range(256)>>> b = bytes(a) # 不用参数encoding >>> b b'\x00\x01\x02 ... \xf6\xf7\xf8\xf9\xfa\xfb\xfc\xfd\xfe\xff' >>> b.decode('utf-8') # 报错 Traceback (most recent call l…
声明:本文参考 Python字符编码详解 在计算机中我们不管用什么语言和程序,最终数据在计算机中的都是字节码(也就是01形式)的形式存在的,如果 计算机直接把字节码显示在屏幕上,很明显一般人看不懂字节码,我们能看懂的只有字符,所以就需要用程序把字节码翻译成字符,要 将字节码翻译成字符,必须在字节码和字符之间建立一种逻辑映射的关系, 我们就使用这种逻辑映射的关系在字节码和字符之间互相 转化,这种逻辑映射关系我们就称之为字符集.      所以字节码和字符之间的翻译过程就是编码或者解码的过程,至于这…
http://blog.51cto.com/9478652/2057896 不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError.UnicodeDecodeError 错误,每当遇到错误我们就拿着 encode.decode 函数翻来覆去的转换,有时试着试着问题就解决了,有时候怎么试都没辙,只有借用 Google 大神帮忙,但似乎很少去关心问题的本质是什么,下次遇到类似的问题重蹈覆辙,那么你有没有想过一次性彻底把 Pytho…