第二部分 数据结构 第2章 序列构成的数组 内置序列类型 序列类型 序列 特点 容器序列 list.tuple.collections.deque - 能存放不同类型的数据:- 存放的是任意类型的对象的引用 扁平序列 str.bytes.bytearray.memoryview.array.array - 只能容纳一种类型:- 存放的是数据值:- 是一段连续的内存空间:- 只能存放字符.字节.数值等基础类型 可变序列与不可变序列 可变序列:list.bytearray.array.array.c…
文本和字节序列 人使用文本,计算机使用字节序列 1. 大纲: 字符.码位和字节表述 bytes.bytearray和memoryview等二进制序列的独特特性 全部Unicode和陈旧字符集的编解码器 避免和处理编码错误 处理文本文件的最佳实践 默认编码的陷阱和标准I/O的问题 规范化Unicode文本,进行安全的比较 规范化.大小写折叠和暴力移除音调符号的实用函数 使用locale模块和PyUCA库正确地排序Unicode文本 Unicode数据库中的字符元数据 能处理字符串和字节序列的双模式…
本文主要内容 字符 字节 结构体和内存视图 字符和字节之间的转换——编解码器 BOM鬼符  标准化Unicode字符串 Unicode文本排序 python高级——目录 文中代码均放在github上:https://github.com/ampeeg/cnblogs/tree/master/python高级 字符 ''' 字符编码问题是经常困扰python编程人员的问题,我在编写爬虫的过程中也经常遇到这个头疼的事. 从python3开始,明确区分了人类语言(文本字符串)和机器语言(二进制字节),…
字符问题 把码位转化成字节序列的过程是编码,把字节序列转化成码位的过程是解码 把unicode字符串当成人类可读的文本,码位当成机器可读的, 将字节序列编程人类可读是解码,把字符串编码成字节序列是编码 字节概要 python内置了两种基本的二进制序列类型,python3引入的不可变的bytes类型和python2.6添加的可变bytearray类型 基本的编解码器 别依赖默认值 python2的默认编码是ascii而python3是utf-8 这章内容主要讨论unicode编码,其实觉得没什么很…
一.字符串的表示和存储 字符串是字符的序列,每个字符都有有一个数字作为标识,同时会有一个将标识转换为存储字节的编码方案: s = 'hello world python' for c in s: print(c, end=' ') h e l l o w o r l d p y t h o n ACSII为协议内的每个字符分别对应一个数字,然后以这个数字的二进制形式存储到计算机; s = 'hello world python' for c in s: num = ord(c) print(nu…
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 15.0px Helvetica } Python 3 明确区分了人类可读的文本字符串和原始的字节序列.隐式地把字节序列转换成 Unicode 文本已成过去. 深入理解 Unicode 对你可能十分重要,也可能无关紧要,这取决于Python 编程的场景.说到底,本章涵盖的问题对只处理 ASCII 文本的程序员没有影响.但是即便如此,也不能避而不谈字符串和字节序列的区别.此外,你会发现专门的二进制序列类型所…
ASCII码 早期人们用8位二进制来编码英文字母(最前面的一位是0) 也就是说,将英文字母和一些常用的字符和这128种二进制0.1串一一对应起来, 比如:大写字母“A”所对应的二进制位“01000001”,转换为十六进制为41. 在美国,这128是够了,但是其他国家不够,他们的字符和英文是有出入的, 比如:在法语中在字母上有注音符号,如 é . 所以各个国家就决定把字节中最前面未使用的那一个位拿来使用,原来的128种状态就变成了256种状态, 比如:é就被编码成130(二进制的10000010)…
目  录 python高级(一)—— python数据模型(特殊方法) python高级(二)—— python内置序列类型 python高级(三)—— 字典和集合(泛映射类型) python高级(四)—— 文本和字节序列(编码问题) python高级(五)—— python函数(一等对象) python高级(六)——用一等函数实现设计模式…
Python中的文本序列类型 Python中的文本数据由str对象或字符串进行处理. 1.字符串 字符串是Unicode码值的不可变序列.字符串字面量有多种形式: 单引号:'允许嵌入"双"引号' 双引号:"允许嵌入'单'引号" 三引号:'''三个单引号''', """三个双引号""" 说明: a) 三引号的字符串可以跨越多行,所关联的空格将包含在字符串文字中: b) 字符串也可以使用str构建函数从其他对象…
[转]Python数据类型之“文本序列(Text Sequence)” Python中的文本序列类型 Python中的文本数据由str对象或字符串进行处理. 1.字符串 字符串是Unicode码值的不可变序列.字符串字面量有多种形式: 单引号:'允许嵌入"双"引号' 双引号:"允许嵌入'单'引号" 三引号:'''三个单引号''', """三个双引号""" 说明: a) 三引号的字符串可以跨越多行,所关联的空…