day3----编码-集合-深浅copy-文件操作-函数初识

本文档主要内容：

首先，我们来看看两个字符串的比较

打开cmd，进入dos界面
 
>>>a='xingchen@'
 
>>>b='xingchen@'
 
>>>print(a==b)    结果为 True
 
>>>print(a is b)    结果为 False
 
上面的两种结果不一样为什么?

这里我们引入id命令，用来测试内存地址

>>> print(id(a))
2138501550128
>>> print(id(b))
2138501550184 #可以看出内存地址不一样

自此：== 比较的是值，而is比较的是内存地址

进行第二个实验让 a='xingchen' b也是b='xingchen' 结果两个都是True

为什么？

小数据池：在str和int中存在这样一个东西，它叫小数据池，即使存在100个这样的变量，在一定范围内，他们都指向同一个内存地址

　　　　　存在的意义：节省内存

什么样的范围：对于int -5 ---- 256

　　　　　　　对于 str：1 不能含有特殊字符，2 单个元素*int 不能超过21

　　　　　　　　例如：
　　　　　　　　　　>>> i='a'* 20
　　　　　　　　　　>>> i1='a' * 20
　　　　　　　　　　>>> print(id(i),id(i1))
　　　　　　　　　　2138501554296 2138501554296 #这里是一样的
　　　　　　　　　　又如：
　　　　　　　　　　>>> i='a'* 21
　　　　　　　　　　>>> i1='a' * 21
　　　　　　　　　　>>> print(id(i),id(i1))
　　　　　　　　　　2138501554368 2138501554440 #这里就不一样了

First -------编码

1.1 ascii：

包含数字，字母，特殊字符，它只有两种表示形式0和1，八个这样的二进制被称为一个字节（byte），
 
ascii一共规定了128个字符的编码，这128个字符只占了这个字节的后七位，最前面的一位为0

1.2 unicode：

万国码，unicode字符集被简成为ucs。
 
unicode起初是用两个字节表示一个字符，后来规定一个字符使用的3个或四个字节表示，
 
这里就产生了问题：无论是简单的英文字符还是复杂的其他字符都用三或四个字节表示，对于存储来说造成了极大浪费，（一个中文使用四个字节表示）。

1.3 utf-8:

utf-8是unicode的一种实现方式，其他还有utf-16和utf-32;
 
它采用变长的编码格式，根据情况，可以使用1-4个字节表示，一般英文字符就用一个字节表示，欧洲语言使用两个字节表示，（中文使用三个字节表示）。

1.4 gbk:

中国大陆制订的，等同于ucs的新的中文编码扩展国家标准，可以表示简体字和繁体字，兼容gb2312

**下面：Unicode，utf-8，gbk，每个编码英文，中文，分别用几个字节表示。

　　　　　　英文              中文
 
unicode: 　　4 　　　　　　4
 
utf-8: 　　　　1 　　　　　　3
 
gbk: 　　　　1 　　　　　　2

其他：

1 不同编码之间的二进制是不能互相识别的
2 对于文件的存储以及传输，不能是unicode的编码（占内存多）。

1.5 bytes和str

在python3.x版本中，有两种类型的字符比较类似

bytes：str拥有的功能，它也有，内部编码方式可以设定，非unicode，可能是utf-8,可能是gbk,可能是gb2312
str（字符串）:内部编码方式是unicode，所以不能直接用于文件的存储和传输
str如果要存储： str 转化成--->bytes ---->用于存储和传输
为什么要存在str---因为bytes显示出来的中文没办法识别，只有英文可以，bytes的类型前面有个b，例如b'abcd'

str ---> bytes 使用encode 编码

例如：    s1='xingchen'
　　　 s2='中文'
b1=s1.encode('utf-8')
b2=s1.encode('gbk')
b3=s2.encode('utf-8')
b4=s2.encode('gbk')
print(b1,b2) --->结果为：b'xingchen'    b'xingchen'   b1和b2看着结果一样却是不同的编码
print(b3,b4) ----》结果为：b'\xe4\xb8\xad\xe6\x96\x87'      b'\xd6\xd0\xce\xc4' 中文就看出区别了

bytes --->str 使用decode 解码
例如：b1.decode('utf-8') b2.decode('gbk')

utf-8要向转化成gbk的编码格式：utf-8首先转化成utf-8的bytes类型，再转化成gdk的bytes类型，如果想转化成str的gdk再使用decode

例如：

例子1：
s='中国' #utf-8的str类型
b=s.encode('gbk') #gbk的bytes类型
c=b.decode('gbk') #转化成str的gbk unicode
print(b) #结果为 b'\xd6\xd0\xb9\xfa'
print(c) #结果为 中国
 
例子2：
s2='中文'
d=s2.encode('gbk').decode('gbk')
d1=d.encode('gbk') #转化成gbk的bytes类型，查看编码格式
e=s2.encode('utf-8').decode('utf-8')
e1=e.encode('utf-8') #转化成utf-8的bytes类型，查看编码格式
print(d,d1)
print(e,e1)

pycharm上面使用的是str类型也即是unicode编码，如果从其他地方传过来的文件是utf-8的话，先encode为utf-8的unicode类型，转化成gbk的话再decode('gbk')就好了

pycharm上面的字符串本身就是unicode编码，因此可以直接转化其他编码的bytes类型，例如：str.encode('utf-8') 又如： str.encode('gbk')

********************************所以utf-8的bytes类型转化成gbk的bytes类型 s.encode('utf-8').decode('gbk') 。反之亦然************************************回到页头************************************************

Second ----集合

set1={}
1要求它里面的元素，是可哈希的，str tuple int bool，元素不重复，无序
集合本身是不可哈希的
2 功能：关系测试，去重
例如：
　　set1={'a','b','c','d','a'}
　　print(set1) #结果为{'b', 'c', 'a', 'd'}，再刷新就变成{'a', 'b', 'c', 'd'} #表明是无序的

#将一个列表去重

　　l=[1,2,1,3,3,4,5,4]
　　print(set(l)) ---》{1, 2, 3, 4, 5}
　　print(list(set(l))) --》[1, 2, 3, 4, 5]

集合的--增

　　set={'a','b','c'}
　　set.add('d')
　　print(set)

集合的--删

　　set1={1,2,3}
　　set.update(set1)
　　print(set) #结果为 {1, 'c', 'd', 2, 3, 'b', 'a'}
　　set.pop() #随机删除因为无序性
　　print(set)
　　set.remove('a') #按照元素删除，不存在会报错
　　print(set)
　　set.clear()
　　print(set) # 结果 set()
　　del set 只能删除整个集合，del不能切片删除

#没有改，下面是查
集合的---查
# 使用for循环
　　for i in set:
　　print(i)
不能使用in查

集合的一些用法：
#交集

　　set1={1,2,3,4,5}
　　set2={4,5,6,7,8}
　　print(set1 & set2)
　　print(set1.intersection(set2))

#并集
　　print(set1 | set2)
　　print(set1.union(set2))
#差集,前面独有的元素

　　print(set1 - set2)
　　print(set2-set1)
　　print(set1.difference(set2))

#反交集
　　print(set1 ^ set2)
　　print(set1.symmetric_difference(set2))
#子集
　　set1={1,2,3}
　　set2={1,2,3,4,5}
　　print(set1 < set2)
　　print(set1.issubset(set2))
#超集
　　print(set2>set1)
　　print(set2.issuperset(set1))
#不可变的集合
　　print(frozenset(set1)) ---》frozenset({1, 2, 3})

Third ---深浅copy 回到页头

s1=[1,2,3]
s2=s1 #赋值，共用一个空间，无论多少层是一样的，一个改变，另外一个也会改变
s1.append(666)
print(s1,s2) ----》[1, 2, 3, 666] [1, 2, 3, 666]
 
s1=[1,2,3]
s2=s1.copy() #浅copy
s1.append(666)
print(s1,s2) ---》[1, 2, 3, 666] [1, 2, 3]
 
s1=[1,2,3,[11,22]]
s2=s1.copy()
s1[-1].append(666)
print(s1,s2) ---》[1, 2, 3, [11, 22, 666]] [1, 2, 3, [11, 22, 666]]

*******所以浅copy第一层各自独立，从第二层开始，共用一个内存地址*****

import copy
s1=[1,2,3,[11,22]]
s2=copy.deepcopy(s1)
s1[-1].append(666)
print(s1,s2) --》[1, 2, 3, [11, 22], 666] [1, 2, 3, [11, 22]]

深copy无论多少层，都是相互独立的

#切片：浅copy

　　s1=[1,2,3,[11,22]]
　　s2=s1[:]
　　# s1.append(666) #结果为 [1, 2, 3, [11, 22], 666] [1, 2, 3, [11, 22]]
　　s1[-1].append(666) #结果为[1, 2, 3, [11, 22, 666]] [1, 2, 3, [11, 22, 666]]
　　print(s1,s2)

模拟tail -f命令

#tail -f access.log
# import time
# with open(r'xxxxx','rb') as f:
#     f.seek(0,2)
#     while True:
#         line=f.readline()
#         # print('===>',line)
#         if line:
#             print(line.decode(),end='')
#         else:
#             time.sleep(0.05)

tail -f

Fourth---文件操作

文件路径：path
编码方式：encoding
操作方式：mode: 读，写，读写，写读，追加，改。。。
执行流程：1打开文件，产生文件句柄 2 对文件句柄进行操作 3关闭文件句柄

f1=open(r'b.txt',encoding='utf-8',mode='r')
print(f1.read())
f1.close()

f1文件句柄，open()调用的内置函数，内置函数调用的系统内部open
r'b.txt' 表示文件路径转义，一般加r，或者加一个/转义路径碰到的问题
mode='r' 其中r的模式是默认的

read() 读取文件中的全部内容
read(n)读取一部分内容

对于mode模式，有两种情况

mode='r'

r模式：read(n) 按照字符读取n个字符

rb模式：以bytes方式读取，read(n)按照字节读取n个字节，一个中文一般要读取三个字节，要不然解码的时候会报错

readline() 每次读取一行
readlines() 读取全部内容，但是处在一行，放在一个列表中，以回车（\n）为分隔
for循环读取：每次读取一行

下面是举例说明

写：w
没有文件，新建文件写入内容，
有文件的话--》先清空内容，再写入新内容

f1=open('c.txt',encoding='utf-8',mode='w')
f1.write('呵呵 kjdf')
f1.close()

图片的读取与写入，实现了新复制的图片2 #图片必须使用bytes的类型读取

　　f1=open('1.jpg',mode='rb')
　　content=f1.read()
　　f2=open('2.jpg',mode='wb')
　　f2.write(content)
　　f1.close()
　　f2.close()

追加 a
没有文件，创建文件，类似于w
有文件，在最后追加内容

r+ 读写模式，先读后写，如果先写后读的话，将写的内容覆盖原文件一部分内容，按照字节替换，如果写的内容不是中文字节的3倍将报错，这里指utf-8编码

f1=open('b.txt',encoding='utf-8',mode='r+')
print(f1.read())
f1.write('') #里面只能加入字符串类型的字符
f1.close()
 
f1=open('b.txt',encoding='utf-8',mode='r+')
# print(f1.read())
# f1.write('666') #里面只能加入字符串类型的字符
f1.write('a') #报错
print(f1.read())
f1.close()

w+先写后读，有文件将清空内容，再写入，此时光标在最后，读的是空内容

a+ 先追加再读

操作方法：read readline readlines write
其他操作方法：readable是否可读 writable是否可写
print(f1.tell()) 打印出光标的位置，按照字节显示数字
f1.seek(12) 任意调整光标的位置 --》按照字节移动
f1.seek(0,2) 光标调整到最后
f1.seek(0) 光标调整到开头

f1=open('b.txt',encoding='utf-8',mode='r')
f1.read(3) #按照字符读取
print(f1.tell()) #打印光标的位置是按照字节
f1.close()

f1.truncate(n) 按照字节对源文件进行截取，必须是在 a或 a+，或者r+模式，清空文件内容再将截取的内容放入文件

　　f1=open('b.txt',encoding='utf-8',mode='a+')
　　f1.truncate(3) #截取了三个字节
　　f1.close()

with open('文件路径'，encoding='模式') as f1 不用主动关闭文件句柄，可以打开多个文件
with open('c.txt',encoding='utf-8') as f1,\
open('b.txt',encoding='utf-8',mode='w') as f2:
content=f1.read()
f2.write(content)
清空b.txt中的内容，并将c.txt的内容复制到b.txt中

文件的修改：
1 以读的模式打开原文件，以写的模式打开一个新文件（这个文件可以事先不存在）
2 将原文件读出，并按要求修改，并将修改后的内容写入新文件
3 删除原文件
4 将新文件重命名为原文件
例如：

　　import os
　　with open('b.txt',encoding='utf-8') as f1,\
　　open('b.bak',encoding='utf-8',mode='w')as f2:
　　for line in f1:
　　new_line=line.replace('xingchen','AA')
　　f2.write(new_line)
　　os.remove('b.txt')
　　os.rename('b.bak','b.txt')

例子：文件一次读两行，区别单双行

with open('test-test','r') as f:
   content=f.readlines()
   p=0
   q=2
   print(len(content))
   while True:
      i=content[p:q]
      p = p + 2
      q = q + 2
      x,y=i[:]
      print(x.split()[0],y.split()[0])
      if q==len(content)+2:
         break
      elif q==len(content)+1:
         i=content[-1]
         print(i)
         break

Fifth-----函数初识

def 函数名():
函数体
出现return的话，return后面的内容不会执行
**return 等同于 return None 一般None省略

return的返回值有两种：
1 return 可以返回单个值
2 return 可以返回多个值多个值，会将多个值放入一个元组中，将元组返回给函数的执行者
例如：

　　def func1():
　　　　print(111)
　　　　print(2222)
　　　　return 666 ,'xingchen',[1,2,3]
　　ret=func1()
　　print(ret)

实参角度：
位置参数: 必须一一对应
　　def func1(a,b,c):
　　　　print(a,b,c)
func1(1,2,'xingchen')

def max(a,b): return a if a>b else b #比较大小的函数

关键字传参：必须一一对应
　　def func2(a,b):
　　　　print(a,b)
func2(b=2,a=3)

混合参数：（位置参数和关键字参数）关键字参数必须在位置参数后
　　def func2(a,b,c,d):
　　　　print(a,b,c,d)
func2(1,2,d=3,c=5)

形参角度：
位置参数。按顺序一一对应

默认参数。默认参数在位置参数的后面

def login(name,sex='男'):
　　with open('register',encoding='utf-8',mode='a') as f1:
　　f1.write('{}，{}\n'.format(name,sex))
 
while True:
name=input('姓名： ').strip()
if '' in name:
　　login(name)
　　else:
　　sex=input('性别: ').strip()
login(name,sex)

动态参数，*args, **kwargs #函数定义的时候，*代表聚合，**表示关键字参数放入一个字典
args:所有的位置参数，放在一个元组中
kwargs：所有的关键字参数，放在一个字典中

　　def func3(*args,**kwargs):
　　　　print(args)
　　　　print(kwargs)
func3(1,2,3,'alex',c=6,name='wu',age='')
 
结果为：
(1, 2, 3, 'alex')
{'c': 6, 'name': 'wu', 'age': ''}
 
def func3(*args,**kwargs): #函数定义的时候*代表聚合
　　print(args)
　　print(kwargs)
 
func3(*[1,2,3],*(22,33)) #函数执行的时候，*代表打散，也即是将列表或者列表亦或元组打散为单个的元素
结果为：(1, 2, 3, 22, 33)
{}
 
func3(**{'name':'xingchen'},**{'age':23})
结果为
()
{'name': 'xingchen', 'age': 23}

形参的顺序：位置参数 *args，默认参数，**kwargs
def func5(a,b,*args,sex='男',**kwargs):
　　print(a,b)
　　print(args)
　　print(sex)
　　print(kwargs)

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　回到页首

day3----编码-集合-深浅copy-文件操作-函数初识的更多相关文章

python笔记2小数据池,深浅copy,文件操作及函数初级
小数据池就是在内存中已经开辟了一些特定的数据,经一些变量名直接指向这个内存,多个变量间公用一个内存的数据. int: -5 ~ 256 范围之内 str: 满足一定得规则的字符串. 小数据池: 1,节 ...
19-3-8Python中编码的进阶、文件操作初识、深浅copy
编码的进阶 ASCII:英文字母,数字,特殊符号,——> 二进制的对应关系 Str: 1个字符——> 1个字节 Unicode:万国码:世界上所有的文字与二进制的对应关系 1个字符——& ...
Delphi文件操作函数
文件是同一种类型元素的有序集合,是内存与外设之间传输数据的渠道.文件的本质是一个数据流,所有的文件实际上是一串二进制序列.文件管理包括:1.文件操作.2.目录操作.3.驱动器操作.三部分. 1.常见文 ...
PHP常用的文件操作函数集锦
以下是个人总结的PHP文件操作函数.当然,这只是部分,还有很多,我没有列出来. 一 .解析路径: 1 获得文件名:basename();给出一个包含有指向一个文件的全路径的字符串,本函数返回基本的文件 ...
常用PHP文件操作函数
注:文件操作函数的行为受到 php.ini 中设置的影响. 当在 Unix 平台上规定路径时,正斜杠 (/) 用作目录分隔符.而在 Windows 平台上,正斜杠 (/) 和反斜杠 (\) 均可使用. ...
总结文件操作函数（二）-C语言
格式化读写: #include <stdio.h> int printf(const char *format, ...); //相当于fprintf( ...
C语言样式的文件操作函数
使用C语言样式的文件操作函数,需要包含stdio.h头文件. 1.打开文件的函数: //oflag的取值为“w”或“r”,分别表示以写或读的方式打开 FILE* fd = fopen(filename ...
Unix无缓冲文件操作函数、文件信息查询
问题描述: Unix无缓冲文件操作函数.文件信息查询问题解决: struct stat 结构体信息: 具体代码: 具体源文件:
C语言文件操作函数
C语言文件操作函数大全 clearerr(清除文件流的错误旗标) 相关函数 feof表头文件 #include<stdio.h> 定义函数 void clearerr(FILE * str ...

随机推荐

Zookeeper Ha集群简介+jdbcClient访问Ha集群环境
Hadoop-HA机制HA概述high available(高可用) 所谓HA(high available),即高可用(7*24小时不中断服务). 实现高可用最关键的策略是消除单点故障.HA严格来说 ...
Qt 中的事件处理（一）
1.图形界面应用程序的消息处理模型特点: 基于操作系统才能运行 GUI应用程序提供的功能必须由用户触发用户操作界面时操作系统是第一个感知的系统内核的消息通过事件处理转变成QT的信号 2. Qt中 ...
HTML：meta标签使用总结 [转载] [360浏览器指定极速模式]
meta标签作用 META标签是HTML标记HEAD区的一个关键标签,提供文档字符集.使用语言.作者等基本信息,以及对关键词和网页等级的设定等,最大的作用是能够做搜索引擎优化(SEO). PS:便于搜 ...
RedHat6.5安装zookeeper单机
版本号: Redhat6.5 zookeeper-3.4.6 JDK1.8 zookeeper下载官网下载地址:https://mirrors.tuna.tsinghua.edu.cn/apac ...
Cordova+Angularjs+Ionic 混合开发入门讲解
作为一名学习Android开发的学生,对于移动开发的发展趋势颇为关注,大家都知道,现在原生的移动开发在企业上基本很少使用了,大部分企业为了降低成本,选择了webapp,hybrid(混合开发)这两种模 ...
mvc 缓存 sqlCacheDependency 监听数据变化
mvc 缓存对于MVC有Control缓存和Action缓存. 一.Control缓存 Control缓存即是把缓存应用到整个Control上,该Control下的所有Action都会被缓存起来 ...
jquery 中prop和 attr
prop就是给html中元素固有的属性赋值而attr是给元素定义新的属性值.
VUEX 学习
语法翻译功能介绍 module(模块)extend(扩展)extract(提取)export(输出)router(路由器)components(组件) store(储存)state (声明. ...
python3学习笔记一（标识符、关键字）
查看Python版本可以命令窗口,windows使用win+R调出cmd运行框,输入以下命令: python -V 进入python的交互编辑模式,也可查看 D:\Python3.6\Scripts ...
Hadoop概念学习系列之Hadoop、Spark学习路线（很值得推荐）（十八）
不多说,直接上干货! 说在前面的话此笔,对于仅对于Hadoop和Spark初中学者.高手请忽略! 1 Java基础: 视频方面: 推荐<毕向东JAVA基础视频教程>.学 ...

day3----编码-集合-深浅copy-文件操作-函数初识

day3----编码-集合-深浅copy-文件操作-函数初识的更多相关文章

随机推荐

热门专题