一、字符串编码和类型

任何编码格式的字符串,都可以和Unicode互相转换。

gbk -> utf8

# 将字符串按指定格式进行解码,返回Unicode字符串
unicode_str = gbk_str.decode("gbk")

# Unicode字符串按指定格式进行编码,返回对应编码字符串
utf8_str = unicode_str.encode("utf-8")

爬虫获取网页字符串的编码格式,取决于网页的charset=gbk

Python2: 编码和类型
str 类型:非Unicode编码字符串
unicode 类型:Unicode编码字符串

Python3: 编码和类型
str 类型:Unicode编码字符串
bytes 类型:非Unicode编码字符串和二进制数据,前面有个'b'

# 将字符串按指定格式进行解码,返回Unicode字符串
unicode_str = gbk_str.decode("gbk")

# Unicode字符串按指定格式进行编码,返回对应编码字符串
utf8_str = unicode_str.encode("utf-8")

二、解释器编码(Linux) :默认编码转换,用于文件写入

>>> import sys
>>> sys.getdefaultencoding()

Python2 :ascii 只能帮忙转换字母、数字
Python3 :utf-8 默认转为utf-8

字符串 utf-8 存为 utf-8文件 (OK)
字符串 unicode,转为utf-8, 存为 utf-8文件 (OK)

字符串 unicode,如果不转码,解释器会尝试转为utf-8,存为utf-8文件 (OK)

当字符串是包含中文的Unicode时,Python2不能直接写入文件,会报错

如果遇到字符串和需要保存的文件不一致:
1. 自己手动转为匹配的编码格式
2. 让解释器帮忙转换,Python2有可能做导致 UnicodeEncodeError

在程序员没有转换编码的前提下:
Python3的解释器:可以将Unicode 转为utf-8 写入Linux文件下(解释器编码UTF-8)
Python2的解释器:不能将 Unicode 写入到Linux文件下(解释器编码ASCII)

Python2下处理编码的万能钥匙:

将Python2的解释器编码ascii 改为 utf-8 (解释器环境等于Python3)
>>> import sys
>>> reload(sys)
>>> sys.setdefaultencoding("utf-8")

三、终端编码(Linux)
Python2 : utf-8

Python3 : Unicode

四、保存的文件编码
只和操作系统有关,Linux是utf-8 Windows GBK

Python3:

with open("xxx.txt", "w", encoding="utf-8") as f:
f.write(xxxx)

Python2 ;没有encoding参数

>>> with open("xxx.txt", "w") as f:
... f.write("你好".decode("utf-8"))
...

Traceback (most recent call last):
File "<stdin>", line 2, in <module>
UnicodeEncodeError: 'ascii' codec cant encode characters in position 0-1: ordinal not in range(128)

>>> with codecs.open("xxx.txt", "w", encoding="utf-8") as f:
... f.write("你好".decode("utf-8"))
...

五、代码文件的编码格式
Python2: ascii #coding:utf-8
Python3: utf-8

Google :PageRank(根据网页流量排名)
Baidu :超链分析(Robin Li),竞价排名(给钱多排名靠前)

不要看一下午视频,只看不清楚的地方(11:55)
“我亦无他,唯手熟尔。”
照着抄代码 - 默写代码 - 改写代码 - 自己写出自己的代码

Python自带模块:
/usr/lib/python2.7

Python第三方模块(pip install xxx)
/usr/local/lib/python2.7/site-packages/

Python2和Python3的字符串编码和类型的更多相关文章

  1. 一篇文章助你理解Python3中字符串编码问题

    前几天给大家介绍了unicode编码和utf-8编码的理论知识,以及Python2中字符串编码问题,没来得及上车的小伙伴们可以戳这篇文章:浅谈unicode编码和utf-8编码的关系和一篇文章助你理解 ...

  2. Python2与python3中字符串的区别

    Python2 在python中包含两种字符串类型:str和unicode,str并不是完全意义上的字符串,其实是由unicode经过编码(encode)后的字节组成的字节字符串,而unicode则是 ...

  3. python2和python3中的编码问题

    开始拾起python,准备使用python3, 造轮子的过程中遇到了编码的问题,又看了一下python3和python2相比变化的部分. 首先说个概念: unicode:在本文中表示用4byte表示的 ...

  4. python3 之 字符串编码小结(Unicode、utf-8、gbk、gb2312等)

    python3 解释器默认编码为Unicode,由str类型进行表示.二进制数据使用byte类型表示. 字符串通过编码转换成字节串,字节码通过解码成为字符串. encode:str-->byte ...

  5. python2.7.x的字符串编码到底什么鬼?(中文和英文的处理)

    一直以来我其实一直对python的编码弄得非常晕,能正常编码,也能处理一些情况.但是始终不明白有些问题究竟为何出,原因是什么,为什么要这样用. 今天晚上正好好好研究了一番解答了自己心中的困惑. Q:p ...

  6. Python2和Python3中的字符串编码问题解决

    Python2和Python3在字符串编码上是有明显的区别. 在Python2中,字符串无法完全地支持国际字符集和Unicode编码.为了解决这种限制,Python2对Unicode数据使用了单独的字 ...

  7. Python的字符串编码

    本文用实验详细地演示了Python2和Python3在字符串编码上的区别. 在Python2中,字符串字面量对应于8位的字符或面向字节编码的字节字面量.这些字符串的一个重要限制是它们无法完全地支持国际 ...

  8. Python2与Python3字符编码的区别

    目录 字符编码应用之Python(掌握) 执行Python程序的三个阶段 Python2与Python3字符串类型的区别(了解) Python2 str类型 Unicode类型 Python3 字符编 ...

  9. 一篇文章助你理解Python2中字符串编码问题

    前几天给大家介绍了unicode编码和utf-8编码的理论知识,没来得及上车的小伙伴们可以戳这篇文章:浅谈unicode编码和utf-8编码的关系.下面在Python2环境中进行代码演示,分别Wind ...

随机推荐

  1. tinylogin-1.4

    tinylogin-1.4是一个开发嵌入式的文件系统很好的一个工具

  2. RollingRegression(滚动回归分析)之Python实现

    # -*- coding: utf-8 -*-"""Created on Sat Aug 18 11:08:38 2018 @author: acadsoc"& ...

  3. Robot Framework--用例、数据、流程分离例子

    如果想改变输入框的输入词,则需要不停的复制case,为了减少冗余,可以做一个简单的分层,把搜索流程剥离成一个关键字,然后再不同的case中调用这个关键字,然后传递不同的参数,以进行不同数据在同一流程下 ...

  4. 【线上监控】日志上报bug处理方式总结

    说明:若直接在网站看觉得字体太小,可以下载下来后放大看会更加清晰.不会失真. 目前总结到此,后期有改动,再次补充与总结

  5. P2P技术之STUN、TURN、ICE详解

    现在大多数计算机主机都位于防火墙或NAT之后,很少有计算机直接接入Internet.通常,人们希望网络中两天计算机能直接进行通信(P2P通信),而不是需要其他公共服务器的中转. 由于主机位于防火墙或N ...

  6. ajax向服务器发出get和post请求

    假设有个网站A,它有一个简单的输入用户名的页面,界面上有两个输入框,第一个输入框包含在一个form表单里用来实现form提交,第二个输入框是单独的.没有包含在form里,下面就用这两个输入框来学习下j ...

  7. STM32的指令周期

    在keil中编程时,写了一行代码,然后就想知道,执行这句C代码需要多长时间. 时钟周期在这就不解释了,频率的倒数. 指令周期,个人理解就是cpu执行一条汇编指令所需要的时间. 我们知道cm3使用的三级 ...

  8. C语言入坑指南-缓冲区溢出

    前言 缓冲区溢出通常指的是向缓冲区写入了超过缓冲区所能保存的最大数据量的数据.如果说之前所提到的一些问题可能只是影响部分功能的实现,那么缓冲区溢出将可能会造成程序运行终止,被不安全代码攻击等严重问题, ...

  9. 后端token认证模板

    1.创建一个视图 from rest_framework import exceptions from app01 import models from rest_framework.authenti ...

  10. Python中日志logging模块

    # coding:utf-8 import logging import os import time class Logger(object): def __init__(self): # 创建一个 ...