1. 当处理文本时,需要现将文本转换为文字,一个字节为8位儿,一个字节最高表示整数255(1111 1111),对应255个状态: 最为人熟知的是ASCii码,ASCii码含128个状态,满足了英文编码转换的需要,但是中文,日文,等等,如果各国编各自的难免会撞车.这是为了统一,Unicode应运而生.又因为Unicode编码浪费内存,然利用Unicode的实现形式之一UTF-8(可变长编码)来表示节省内存. Unicode 与UTF-8 有固定的转换规则. 参考:Unicode 与ASCii 与…
Python编程笔记二进制.字符编码.数据类型 一.二进制 bin() 在python中可以用bin()内置函数获取一个十进制的数的二进制 计算机容量单位 8bit = 1 bytes 字节,最小的存储单位,1bytes缩写为1B 1KB = 1024B 1MB = 1024KB 1GB = 1024MB 1TB = 1024 GB 1PB = 1024 TB 1EB = 1024 PB 1ZB = 1024 EB 1YB = 1024 ZB 1BB = 1024 YB 二.字符编码 Unico…
字符串的表示 python中的字符串是一个常量,可以使用单引号'',双引号""或三引号""" """来创建一个字符串常量.,如下: s1='Hello world!' s2="Hello world!" s3=""" Hello world! I am Chinese! I love my country! """       为什么python要…
一.字符串的定义 字符串是就一堆字符,可以使用""(双引号).''(单引号)来创建. 1 one_str = "定义字符串" 字符串内容中包含引号时,可以使用转义字符:/'./". 二.字符串的常见操作 1.索引的定义 1 #使用索引打印y 2 one_str = "My name is apple!" 3 print(one_str[1]) 2.字符串的切片 object[start_index:end_index:step] sta…
1.将字符串全部变为小写:lower() casefold() 范围更广 2.将字符串全部变为大写:upper() 3.判断是否大小写:isupper() islower() 4.居中:center(width,fillchar=None) >> 'python'.center(10,'-')>> '--python--' 5.字符串中寻找子序列出现次数:count(char,start=None,end=None) 6.判断字符串是否以xx开头或结尾:startswith(cha…
历史:Ascll-Unicode-UTF-8 对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符: >>> ord('A') 以Unicode表示的str通过encode()方法可以编码为指定的bytes,例如: >>> 'ABC'.encode('ascii') b'ABC' >>> '中文'.encode('utf-8') b'\xe4\xb8\xad\xe6\x96\x87' >&g…
一.编码 1.编码类别: (1)ASCII码:127个字母被编码到计算机里,也就是大小写英文字母.数字和一些符号 (2)GB2312码:中国制定的用于加入中文汉字的编码 (3)Unicode:防止由于各种编码出现冲突而导致的乱码问题.最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节) (4)"可变长编码"UTF-8:Unicode乱码问题解决,然而是以存储为代价的.使用可变长编码可以一定程度上解决存储问题, 2.计算机系统通用的字符编码工作方式 (1)在计算机…
一.编码 1.编码类别: (1)ASCII码:127个字母被编码到计算机里,也就是大小写英文字母.数字和一些符号 (2)GB2312码:中国制定的用于加入中文汉字的编码 (3)Unicode:防止由于各种编码出现冲突而导致的乱码问题.最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节) (4)“可变长编码”UTF-8:Unicode乱码问题解决,然而是以存储为代价的.使用可变长编码可以一定程度上解决存储问题, 2.计算机系统通用的字符编码工作方式 (1)在计算机内存中,统…
原始字符串 使用\转义或者r,这种方法在网站设置网站目录结构的时候非常管用. >>> dos="c:\news" >>> print dos c: ews >>> dos="c:\\news" >>> print dos c:\news >>> dos=r"c:\news" #r开头的字符串就是原始字符串 >>> print dos c:\…
Unicode编码 计算机只能处理数字,如果要处理文本,就必须把文本转化为数字才能处理 有许多编码标准,但是不同的编码标准有时候会混乱,所以Unicode应运而生 Unicode把所有语言统一到一套编码里,这样就不会再有乱码问题 ASCII编码和Unicode编码的区别: ASCII编码是1个字节,而Unicode编码通常是2个字节. 字母A用ASCII编码是十进制的65,二进制的01000001: 字符0用ASCII编码是十进制的48,二进制的00110000,注意字符'0'和整数0是不同的:…