Python基础【day02】：字符编码（一）

本节内容

1、字符编码与转码

1、关于中文
2、注释
3、转码

2、表达式for 循环

3、数据类型之数字

1、数字
2、布尔值
3、字符串
4、列表
5、元祖
6、字典

一、字符编码与转码

python解释器在加载 .py 文件中的代码时，会对内容进行编码（默认ascill）

ASCII（American Standard Code for Information Interchange，美国标准信息交换代码）是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言，其最多只能用 8 位来表示（一个字节），即：2**8 = 256-1，所以，ASCII码最多只能表示 255 个符号。

关于中文

为了处理汉字，程序员设计了用于简体中文的GB2312和用于繁体中文的big5。

GB2312(1980年)一共收录了7445个字符，包括6763个汉字和682个其它符号。汉字区的内码范围高字节从B0-F7，低字节从A1-FE，占用的码位是72*94=6768。其中有5个空位是D7FA-D7FE。

GB2312 支持的汉字太少。1995年的汉字扩展规范GBK1.0收录了21886个符号，它分为汉字区和图形符号区。汉字区包括21003个字符。2000年的 GB18030是取代GBK1.0的正式国家标准。该标准收录了27484个汉字，同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字。现在的PC平台必须支持GB18030，对嵌入式产品暂不作要求。所以手机、MP3一般只支持GB2312。

从ASCII、GB2312、GBK 到GB18030，这些编码方法是向下兼容的，即同一个字符在这些方案中总是有相同的编码，后面的标准支持更多的字符。在这些编码中，英文和中文可以统一地处理。区分中文编码的方法是高字节的最高位不为0。按照程序员的称呼，GB2312、GBK到GB18030都属于双字节字符集 (DBCS)。

有的中文Windows的缺省内码还是GBK，可以通过GB18030升级包升级到GB18030。不过GB18030相对GBK增加的字符，普通人是很难用到的，通常我们还是用GBK指代中文Windows内码。

显然ASCII码无法将世界上的各种文字和符号全部表示，所以，就需要新出一种可以代表所有字符和符号的编码，即：Unicode

Unicode（统一码、万国码、单一码）是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，规定虽有的字符和符号最少由 16 位来表示（2个字节），即：2 **16 = 65536，
注：此处说的的是最少2个字节，可能更多

UTF-8，是对Unicode编码的压缩和优化，他不再使用最少使用2个字节，而是将所有的字符和符号进行分类：ascii码中的内容用1个字节保存、欧洲的字符用2个字节保存，东亚的字符用3个字节保存...

所以，python解释器在加载 .py 文件中的代码时，会对内容进行编码（默认ascill），如果是如下代码的话：

报错：ascii码无法表示中文

#!/usr/bin/env python

print "你好，世界"

改正：应该显示的告诉python解释器，用什么编码来执行源代码，即：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

print "你好，世界"

注释

　　当行注视：# 被注释内容

　　多行注释：""" 被注释内容 """

转码

详细文章:

http://www.cnblogs.com/yuanchenqi/articles/5956943.html

http://www.diveintopython3.net/strings.html

需知:

1.在python2默认编码是ASCII, python3里默认是unicode

2.unicode 分为 utf-32(占4个字节),utf-16(占两个字节)，utf-8(占1-4个字节)， so utf-16就是现在最常用的unicode版本，不过在文件里存的还是utf-8，因为utf8省空间

3.在py3中encode,在转码的同时还会把string 变成bytes类型，decode在解码的同时还会把bytes变回string

上图仅适用于py2

#-*-coding:utf-8-*-

__author__ = 'luoahong'

import sys

print(sys.getdefaultencoding())

msg = "我爱北京天安门"

msg_gb2312 = msg.decode("utf-8").encode("gb2312")

gb2312_to_gbk = msg_gb2312.decode("gbk").encode("gbk")

print(msg)

print(msg_gb2312)

print(gb2312_to_gbk)

　python3

#-*-coding:gb2312 -*-   #这个也可以去掉

__author__ = 'luoahong'

import sys

print(sys.getdefaultencoding())

msg = "我爱北京天安门"

#msg_gb2312 = msg.decode("utf-8").encode("gb2312")

msg_gb2312 = msg.encode("gb2312") #默认就是unicode,不用再decode,喜大普奔

gb2312_to_unicode = msg_gb2312.decode("gb2312")

gb2312_to_utf8 = msg_gb2312.decode("gb2312").encode("utf-8")

print(msg)

print(msg_gb2312)

print(gb2312_to_unicode)

print(gb2312_to_utf8)

二、表达式for loop

最简单的循环10次

#_*_coding:utf-8_*_

__author__ = 'luoahong'

for i in range(10):

print("loop:", i )

输出：

loop: 0

loop: 1

loop: 2

loop: 3

loop: 4

loop: 5

loop: 6

loop: 7

loop: 8

loop: 9

需求一：还是上面的程序，但是遇到小于5的循环次数就不走了，直接跳入下一次循环

for i in range(10):

if i<5:

continue #不往下走了,直接进入下一次loop

print("loop:", i )

需求二：还是上面的程序，但是遇到大于5的循环次数就不走了，直接退出

for i in range(10):

if i>5:

break #不往下走了,直接跳出整个loop

print("loop:", i )

三、数据类型初识

1、数字

2 是一个整数的例子。
长整数不过是大一些的整数。
3.23和52.3E-4是浮点数的例子。E标记表示10的幂。在这里，52.3E-4表示52.3 * 10-4。
(-5+4j)和(2.3-4.6j)是复数的例子，其中-5,4为实数，j为虚数，数学中表示复数是什么？。

int（整型）

　　在32位机器上，整数的位数为32位，取值范围为-2**31～2**31-1，即-2147483648～2147483647
　　在64位系统上，整数的位数为64位，取值范围为-2**63～2**63-1，即-9223372036854775808～9223372036854775807

long（长整型）
　　跟C语言不同，Python的长整数没有指定位宽，即：Python没有限制长整数数值的大小，但实际上由于机器内存有限，我们使用的长整数数值不可能无限大。
　　注意，自从Python2.2起，如果整数发生溢出，Python会自动将整数数据转换为长整数，所以如今在长整数数据后面不加字母L也不会导致严重后果了。
float（浮点型）

先扫盲 http://www.cnblogs.com/alex3714/articles/5895848.html
　　浮点数用来处理实数，即带有小数的数字。类似于C语言中的double类型，占8个字节（64位），其中52位表示底，11位表示指数，剩下的一位表示符号。
complex（复数）
　　复数由实数部分和虚数部分组成，一般形式为x＋yj，其中的x是复数的实数部分，y是复数的虚数部分，这里的x和y都是实数。

注：Python中存在小数字池：-5 ～ 257

2、布尔值

　　真或假

　　1 或 0

3、字符串

"hello world"

万恶的字符串拼接：

　　python中的字符串在C语言中体现为是一个字符数组，每次创建字符串时候需要在内存中开辟一块连续的空，并且一旦需要修改字符串的话，就需要再次开辟空间，万恶的+号每出现一次就会在内从中重新开辟一块空间。

字符串格式化输出

name = "alex"

print "i am %s " % name

#输出: i am alex

PS: 字符串是 %s;整数 %d;浮点数%f

字符串常用功能：

移除空白
分割
长度
索引
切片

4、列表

创建列表：

name_list = ['alex', 'seven', 'eric']

或

name_list ＝ list(['alex', 'seven', 'eric'])

基本操作：

索引
切片
追加
删除
长度
切片
循环
包含

5、元组(不可变列表)

创建元组：

ages = (11, 22, 33, 44, 55)

或

ages = tuple((11, 22, 33, 44, 55))

6、字典（无序）

创建字典：

person = {"name": "mr.wu", 'age': 18}

或

person = dict({"name": "mr.wu", 'age': 18})

常用操作：

索引
新增
删除
键、值、键值对
循环
长度