python基础4 ----字符编码

python基础---字符编码

　　一、了解字符编码

　　　　1. 文本编辑器存取文件的原理（nodepad++，pycharm，word）

　　　　　　　　打开编辑器就打开了启动了一个进程，是在内存中的，所以在编辑器编写的内容也都是存放与内存中的，断电后数据丢失

因而需要保存到硬盘上，点击保存按钮，就从内存中把数据刷到了硬盘上。

在这一点上，我们编写一个py文件（没有执行），跟编写其他文件没有任何区别，都只是在编写一堆字符而已。

2. python解释器执行py文件的原理，例如python test.py

　　　　　　　　第一阶段：python解释器启动，此时就相当于启动了一个文本编辑器

　　　　　　　　第二阶段：python解释器相当于文本编辑器，去打开test.py文件，从硬盘上将test.py的文件内容读入到内存中

　　　　　　　　第三阶段：python解释器解释执行刚刚加载到内存中test.py的代码

　　总结：

python解释器是解释执行文件内容的，因而python解释器具备读py文件的功能，这一点与文本编辑器一样。
与文本编辑器不一样的地方在于，python解释器不仅可以读文件内容，还可以执行文件内容。

二、字符编码的发展史

　　1、字符翻译成数字的过程就是一个字符如何对应一个特定数字的标准，这个标准称之为字符编码

　　2、阶段一：现代计算机起源于美国，最早诞生也是基于英文考虑的ASCII（其范围之适用于英文）

　　ASCII:一个Bytes代表一个字符（英文字符/键盘上的所有其他字符），1Bytes=8bit，8bit可以表示0-2**8-1种变化，即可以表示256个字符。ASCII最初只用了后七位，127个数字，已经完全能够代表键盘上所有的字符了（英文字符/键盘的所有其他字符），后来为了将拉丁文也编码进了ASCII表，将最高位也占用了

　　3、阶段二:为了满足中文，中国人定制了GBK (GBK:2Bytes代表一个字符）。

　　　　　日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里。

　4、阶段三：各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。于是产生了unicode，统一用2Bytes代表一个字　　符，2**16-1=65535，可代表6万多个字符，因而兼容万国语言，但对于通篇都是英文的文本来说，这种编码方式无疑是多了一倍的存储空间（二进制最终都是以电或者　　　磁的方式存储到存储介质中的）于是产生了UTF-8，对英文字符只用1Bytes表示，对中文字符用3Bytes。

　　补充：

内存中使用的编码是unicode，用空间换时间（程序都需要加载到内存才能运行，因而内存应该是尽可能的保证快）
硬盘中或者网络传输用utf-8，网络I/O延迟或磁盘I/O延迟要远大与utf-8的转换延迟，而且I/O应该是尽可能地节省带宽，保证数据传输的稳定性

　　三、字符编码的使用

　　1、乱码产生的原因

　　　　文件从内存刷到硬盘的操作简称存文件，文件从硬盘读到内存的操作简称读文件。

　　　　乱码一：存文件时就已经乱码

　　　　存文件时，由于文件内有各个国家的文字，我们单以shiftjis去存，本质上其他国家的文字由于在shiftjis中没有找到对应关系而导致存储失败，用open函数的write可以测试，f=open('a.txt','w',encodig='shift_jis')，f.write('你瞅啥\n何を見て\n') #'你瞅啥'因为在shiftjis中没有找到对应关系而无法保存成功，只存'何を見て\n'可以成功，但当我们用文件编辑器去存的时候，编辑器会帮我们做转换，保证中文也能用shiftjis存储（硬存，必然乱码），这就导致了，存文件阶段就已经发生乱码，此时当我们用shiftjis打开文件时，日文可以正常显示，而中文则乱码了。

　　　　乱码二：存文件时不乱码而读文件时乱码

　　　　存文件时用utf-8编码，保证兼容万国，不会乱码，而读文件时选择了错误的解码方式，比如gbk，则在读阶段发生乱码，读阶段发生乱码是可以解决的，选对正确的解码方式就ok了，而存文件时乱码，则是一种数据的损坏。

　　2、解决办法：

　　　　核心法则就是，文件以什么编码保存的，就以什么编码方式打开

　　四、分析python程序的执行过程

　　　　1、过程

　　　　　　阶段一：启动python解释器

　　　　　　阶段二：python解释器此时就是一个文本编辑器，负责打开文件test.py,即从硬盘中读取test.py的内容到内存中。此时，python解释器会读取test.py的第一行内　容，#coding:utf-8，来决定以什么编码格式来读入内存，这一行就是来设定python解释器这个软件的编码使用的编码格式是这个编码。可以用sys.getdefaultencoding()查　看，如果不在python文件指定头信息＃-*-coding:utf-8-*-,那就使用默认的python2中默认使用ascii，python3中默认使用utf-8

　　　　　　阶段三：读取已经加载到内存的代码（unicode编码的二进制），然后执行，执行过程中可能会开辟新的内存空间，比如x="egon"

　　　　注释：内存的编码使用unicode，不代表内存中全都是unicode编码的二进制，在程序执行之前，内存中确实都是unicode编码的二进制,比如从文件中读取了一行x="egon",其中的x，等号，引号，地位都一样，都是普通字符而已，都是以unicode编码的二进制形式存放与内存中的，但是程序在执行过程中，会申请内存（与程序代码所存在的内存是俩个空间），可以存放任意编码格式的数据，比如x="egon",会被python解释器识别为字符串，会申请内存空间来存放"egon"，然后让x指向该内存地址，此时新申请的该内存地址保存也是unicode编码的egon,如果代码换成x="egon".encode('utf-8'),那么新申请的内存空间里存放的就是utf-8编码的字符串egon了.

　　　　五、python2与python3的区别

　　　　1、在python2中有两种字符串类型str和unicode

　　　　str类型：当python解释器执行到产生字符串的代码时（例如s='林'），会申请新的内存地址，然后将'林'encode转移成文件开头指定的编码格式，这已经是encode之后的结果了，所以s只能decode

　　　　unicode类型：当python解释器执行到产生字符串的代码时（例如s=u'林'），会申请新的内存地址，然后将'林'以unicode的格式存放到新的内存空间中，所以s只能encode，不能decode

　　　　2、在python三种也有两种字符串类型str和bytes

python基础4 ----字符编码的更多相关文章

python基础_字符编码
字符编码的历史阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII 阶段二:为了满足中文,中国人定制了GBK 阶段三:各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的 ...
python 基础之字符编码和文件处理
一.字符编码 (1)计算机基础知识 (2)python 解释器执行py文件的原理 <1>python 解释器启动 <2>python解释器相当于一个文本编辑器,打开txt.py ...
第二篇.2、python基础之字符编码
一了解字符编码的知识储备一计算机基础知识二文本编辑器存取文件的原理(nodepad++,pycharm,word) #1.打开编辑器就打开了启动了一个进程,是在内存中的,所以,用编辑器编写的 ...
第1章 Python基础之字符编码
阅读目录一.什么是字符编码二.字符编码分类三.字符编码转换关系 3.1 程序运行原理 3.2 终极揭秘 3.3 补充总结回到顶部一.什么是字符编码计算机要想工作必须通电,也就是说'电'驱 ...
Python基础之字符编码
前言字符编码非常容易出问题,我们要牢记几句话: 1.用什么编码保存的,就要用什么编码打开 2.程序的执行,是先将文件读入内存中 3.unicode是父编码,只能encode解码成其他编码格式 utf ...
（Python基础）字符编码与转码
ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧 ...
Python全栈开发之路【第三篇】：Python基础之字符编码和文件操作
本节内容一.三元运算三元运算又称三目运算,是对简单的条件语句的简写,如: 简单条件语句: if 条件成立: val = 1 else: val = 2 改成三元运算: val = 1 if 条件成 ...
第一章：python基础语法| 字符编码| 条件语句...
1.编程语言介绍编程就是写代码,让计算机帮你做事情.计算机底层是电路,只认识二进制0和1.机器语言&汇编语言语言进化历史:机器.汇编.高级.机器语言只接受二进制代码:汇编语言是采用英文缩写的 ...
Python基础2 字符编码和逻辑运算符
编码 AscII码 :标准ASCII码是采用7位二进制码来编码的,最高为0,没有0000 0000,所以就是2**7-1=127个字符 , 当用1个字节(8位二进制码)来表示ASCII码时,就在最高位 ...

随机推荐

Laravel之任务调度
一.基本简介任务调度定义在app/Console/Kernel.php 文件的schedule 方法中,该方法中已经包含了一个示例.你可以自由地添加你需要的调度任务到Schedule 对象. 二.开 ...
Android Studio加入插件（Genymotion）
官方模拟器的龟速已让我们无力吐槽.幸好有genymotion这款逆天的Android虚拟机,它有着高速的开启速度,良好的交互界面. 是Android开发必备的良品.甚至有些玩家已经用genymotio ...
【Shell】建立一个脚本统计当前登录用户数
who命令 who命令是显示目前登陆系统的用户信息,执行who命令可以得知目前哪些用户登入系统,单独执行who命令会列出登入账号,使用的终端机,登入的时间以及从何处登入或正在使用哪个显示器. 统计用户 ...
《TCP/IP具体解释卷2：实现》笔记--IP的分片和重装
IP首部内有三个字段实现分片和重装:标识字段(ip_id).标志字段(ip_off的3个高位比特)和偏移字段(ip_off的13个低位比特).标志字段由3个1bit标志组成.比特0是保留的必须为0, ...
ios 缩放图片（平铺）
//缩放图片(平铺) - (UIImage *)resizeImage:(NSString *)imgName { UIImage *bgImage = [UIImage imageNamed:im ...
mysql 语句要求
mysql 语句不可以有单引号,要把单引号替换为双引号!
转：使用rsync在linux（服务端）与windows（客户端）之间同步
转自:http://blog.csdn.net/old_imp/article/details/8826396 一在linux(我用的是centos系统)上安装rsync和xinetd前先查看lin ...
mysql更改表结构：添加、删除、修改字段、调整字段顺序
添加字段: alter table `user_movement_log` Add column GatewayId int not null default 0 AFTER `Regionid` ( ...
Ubuntu 16.04.5下FFmpeg编译与开发环境搭建
PC环境: Ubuntu 18.04 上面只要安装下面的提示安装即可,基本上不必再下载依赖库的源代码进行编译和安装编译步骤: 1, 安装相关工具: sudo apt install -y auto ...
MYSQL 随机选取几条数据
SELECT * FROM tablename AS r1 JOIN (SELECT ROUND(RAND() *(SELECT MAX(id)FROM tablename)) AS id) AS r ...

python基础4 ----字符编码

python基础4 ----字符编码的更多相关文章

随机推荐

热门专题