一、了解字符编码的知识储备

 1、计算机基础知识(三副图)

  

2、文本编辑器存取文件的原理(notepad++,Pycharm,word)

  打开编辑器就启动了一个进程,是在内存中运行的,所以在编辑器写的内容在没保存之前都是存放在内存中的,断电后数据就会丢失。因而需要保存到硬盘上,点击保存按钮,就从内存中把数据刷到硬盘上。

3、Python解释器执行py文件的与原理,例如python test.py

  第一阶段:python解释器启动,此时就相当于启动了一个文本编辑器。

  第二阶段:python解释器相当于文本编辑器,去打开test.py文件,从硬盘将test.py的文件内容读到内存中。

  第三阶段:python解释器解释执行刚刚加载到内存中test.py的代码。(PS:在该阶段,即执行时,才会识别python的语法,执行文件内代码,执行到name='tracy',会开辟内存空间存放字符串'tracy')

总结:python解释器与文本编辑器的异同

  相同点:python解释器是执行文件内容的,因而python解释器具备都py文件的功能,这一点与文本编辑器一样

  不同点:文本编辑器将文件内容读入内存后,是未来显示/编辑,而python解释器将文件读入内存后,是为了执行(识别python语法)

二、什么是字符编码

  计算机要想工作必须通电,也就是说电驱使计算机干活,而电的特性,就是高低电平。(高低电平即二进制数1,低电平即二进制0),也就是说计算机只认识数字。

  如何能让计算机读懂人类的字符?

  字符----->(翻译过程)------>数字

  这个过程实际就是一个字符如何对应一个特定数字的标准,这个标准称之为字符编码。

三、字符编码的发展史

  阶段一:现代计算机起源于美国,最早诞生也是基于英文考虑的ASCII

  ASCII:一个Bytes代表一个字符(英文字符/键盘上的所有其他字符),1Bytes=8bit,8bit可以表示0-2**8-1种变化,即可表示256个字符。

  阶段二:为了满足中文,中国人定制了GBK

  GBK:2Bytes代表一个字符

  阶段三:日本人定制了Shift_JIS,韩国人定制了Euc-kr等等

  小结:各国有各国的标准,就会有不可避免的冲突,结果就是,在多语言混合的文本中,显示出来就会有乱码。

  于是产生了Unicode,同意用2B有特色代表一个字符,2**16-1=65535,可代表6万多个字符,因而兼容万国语言。

  但是对于通篇都是英文的文本来说,这种编码方式无疑是多了一倍的存储空间。于是产生了utf-8,对英文字符只用1Bytes表示,对中文字符用3Bytes表示。

  unicode特性:简单粗暴,所有字符都是2Bytes,优点是字符->数字的转换速度快,缺点是占用空间打。

  utf-8特性:精准,对不同的字符用不同的长度表示,有点是节省空间,缺点是:字符-->数字的转换速度慢,因为每次都需要计算出字符需要多长的Bytes才能够准确表示。

  内存中使用的编码是Unicode,用空间换时间。

  硬盘中或者网络传输用utf-8,网络I/O延迟或者磁盘I/O延迟要远大于utf-8的转换延迟,而且I/O应该是尽可能地节省带宽,保证数据传输的稳定性。

四、字符编码的使用

  文本编辑器转换图

  Unicode--->encode----->utf-8

  uft-8--------->decode----->Unicode

  

   分析字符转换过程:

  文件从内存刷到硬盘的操作简称存文件

   文件从硬盘读到内存的操作简称读文件

  分析乱码:

  1、存文件时就已经乱码的情况;

  2、存文件时不乱码而读文件时乱码;

  小结:  

  无论是何种编辑器,要防止文件出现乱码(请一定注意,存放一段代码的文件也仅仅只是一个普通文件而已,此处指的是文件没有执行前,我们打开文件时出现的乱码)

  核心法则就是,文件以什么编码保存的,就以什么编码方式打开。

  python2默认ASCII,python3默认utf-8,除非文件头部指定编码方式。

  针对python3如下图;

  

  在浏览网页的时候,服务器会吧动态生成的Unicode内容转换为UTF-8再传输到浏览器

  如果服务端encode的编码格式是utf-8,客户端内存中收到的也是uft-8编码的二进制。

  在python3中也有两种字符串类型str和bytes

  str是Unicode 

#coding:utf-8
s='林' #当程序执行时,无需加u,'林'也会被以unicode形式保存新的内存空间中, #s可以直接encode成任意编码格式
s.encode('utf-8')
s.encode('gbk') print(type(s)) #<class 'str'>

bytes是bytes

#coding:utf-8
s='林' #当程序执行时,无需加u,'林'也会被以unicode形式保存新的内存空间中, #s可以直接encode成任意编码格式
s1=s.encode('utf-8')
s2=s.encode('gbk') print(s) #林
print(s1) #b'\xe6\x9e\x97' 在python3中,是什么就打印什么
print(s2) #b'\xc1\xd6' 同上 print(type(s)) #<class 'str'>
print(type(s1)) #<class 'bytes'>
print(type(s2)) #<class 'bytes'>

  总结:

字符编码
python2 str --> bytes ascii
python3 str --> unicode

文件处理
r读 光标文件开头 不会影响文件内容
w写 光标在文件开头 打开文件的时候文件即被清空
a追写 光标在文件末尾 不会影响文件内容
r+可读可写 光标在文件开头
w+可写可读 光标在文件开头 打开文件的时候文件即被清空
a+追加可读 光标在文件末尾
带b 上面的6种模式都可以+b
#只读方式打开文件,读
#f = open('复习.py','r',encoding='utf-8')
#f文件+句柄 能操作文件的一个东西
#for i in f:
# print(i,end='')
#写方式打开文件
# f = open('复习2.py','w',encoding='utf-8')
#可写可读 打开文件的时候文件就为空,写的是任意内容,读的是刚刚写进去的内容
#要想读,先移动光标
#读的光标和写的光标是两回事
# f = open('复习2.py','w+',encoding='utf-8')
# f.write('12237yuiayi')
# #seek 制定光标的位置在0位置
# f.seek(0)
# print(f.read(3))
# f.write('kahkshldkhd')
# print('***',f.read())
# f.close()
#可读可写
# f = open('复习2.py','r+',encoding='utf-8')
# print(f.read())
# f.write('\najshdjkdjk')
# f.close()
#追加可读
f = open('复习2.py','a+',encoding='utf-8')
f.seek(0)
print(f.read())

 

Python基础(字符编码与文件处理)的更多相关文章

  1. python基础--字符编码以及文件操作

    字符编码: 1.运行程序的三个核心硬件:cpu.内存.硬盘 任何一个程序要是想要运算,肯定是先从硬盘加载到当前的内存中,然后cpu根据指定的指令去执行操作 2.python解释器运行一个py文件的步骤 ...

  2. Python基础-字符编码与转码

    ***了解计算机的底层原理*** Python全栈开发之Python基础-字符编码与转码 需知: 1.在python2默认编码是ASCII, python3里默认是utf-8 2.unicode 分为 ...

  3. Python之字符编码与文件操作

    目录 字符编码 Python2和Python3中字符串类型的差别 文件操作 文件操作的方式 文件内光标的移动 文件修改 字符编码 什么是字符编码? ''' 字符编码就是制定的一个将人类的语言的字符与二 ...

  4. Python入门基础--字符编码与文件处理

    字符编码 文本编辑器存取文件的原理 #1.打开编辑器就打开了启动了一个进程,是在内存中的,所以,用编辑器编写的内容也都是存放与内存中的,断电后数据丢失 #2.要想永久保存,需要点击保存按钮:编辑器把内 ...

  5. python基础-----字符编码

    1.ASCII ASCII(American Standard Code for Information Interchange,美国标准信息交换代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现 ...

  6. what's the python之字符编码与文件处理

    用文本编辑器打开一个文件就是把一个文件读入了内存中 ,所以打开文件的操作也是在内存中的,断电即消失,所以若要保存其内容就必须点击保存让其存入硬盘中 python解释器执行py文件的原理 : 第一阶段: ...

  7. 第2章 Python基础-字符编码&数据类型 字符编码&字符串 练习题

    1.简述位.字节的关系 位(bit)是计算机中最小的表示单元,数据传输是以“位”为单位的,1bit缩写为1b 字节(Byte)是计算机中最小的存储单位,1Byte缩写为1B 8bit = 1Byte ...

  8. 第2章 Python基础-字符编码&数据类型 购物车&多级菜单 作业

    作业 一.三级菜单 数据结构: menu = { '北京':{ '海淀':{ '五道口':{ 'soho':{}, '网易':{}, 'google':{} }, '中关村':{ '爱奇艺':{}, ...

  9. 第2章 Python基础-字符编码&数据类型 列表&元祖 练习题

    1.创建一个空列表,命名为names,往里面添加old_driver,rain,jack,shanshan,peiqi,black_girl元素 names = ["old_driver&q ...

随机推荐

  1. ZOJ18th省赛 Lucky 7

    [线上网址](http://acm.zju.edu.cn/onlinejudge/showContestProblems.do?contestId=378) BaoBao has just found ...

  2. 51nod 1101 换零钱 【完全背包变形/无限件可取】

    1101 换零钱  基准时间限制:1 秒 空间限制:131072 KB 分值: 20 难度:3级算法题  收藏  关注 N元钱换为零钱,有多少不同的换法?币值包括1 2 5分,1 2 5角,1 2 5 ...

  3. 51nod 1432 独木舟【贪心】

    1432 独木舟 基准时间限制:1 秒 空间限制:131072 KB 分值: 10 难度:2级算法题  收藏  关注 n个人,已知每个人体重.独木舟承重固定,每只独木舟最多坐两个人,可以坐一个人或者两 ...

  4. 洛谷——P2640 神秘磁石

    P2640 神秘磁石 题目背景 在遥远的阿拉德大陆,有一种神秘的磁石,是由魔皇制作出来的, 题目描述 1.若给他一个一维坐标系,那么他的磁力一定要在素数坐标的位置上才能发挥的最大(不管位置坐标的大小, ...

  5. 如何正确使用const(常量),define(宏)

    前言 在开发中,也许我们会经常使用到宏定义,或者用const修饰一些数据类型,经常有开发者不知道怎么正确使用,导致项目中乱用宏定义与const修饰符.本篇主要介绍在开发中怎么正确使用const与def ...

  6. Ubuntu 16.04使用timedatectl进行管理时间(UTC/CST)(服务器/桌面)

    说明:16.04开始,systemd接管了系统之后就不再使用/etc/default/rcS和ntpdate.dpkg-reconfigure tzdata进行时间的管理,所以在这些地方设置是无效的, ...

  7. CGCS2000坐标系与其他坐标系间的差异和转换方法

    转自 CGCS2000坐标系与其他坐标系间的差异和转换方法 1954北京坐标系和1980西安坐标系是以天文大地网等经典测量技术为基础的局部坐标系.­ CGCS2000是以地球质量中心为原点的地心大地坐 ...

  8. 【微信】微信小程序 微信开发工具中新创建的json文件,编译报错VM1781:2 pages/module/module.json 文件解析错误 SyntaxError: Unexpected end of JSON input

    如果新创建报错:编译报错VM1781:2 pages/module/module.json 文件解析错误  SyntaxError: Unexpected end of JSON input 解决方法 ...

  9. webstorm编辑器设置为vim的方法

    首先有这个插件,其设置如下,选中即可 打开和关闭方法: https://www.jetbrains.com/help/webstorm/vim-emulation.html https://plugi ...

  10. 关于各浏览器的cookie上限

    IE6~IE6以下,每个域名最多20个cookie IE7及以上,每个域名最多50个cookie Firefox,每个域名最多50个cookie Opera,每个域名最多30个cookie Safar ...