转载:https://www.cnblogs.com/whatisfantasy/p/6422028.html

1 版本差异概览

1.1 Python 2.X:

  • str(用于8位文本和二进制数据)
  • unicode(用于宽字符文本)

在Python2中,通用的str类型填补了二进制数据的这一角色(特指python3中的bytes类型),因为字符串也只是字节的序列(单独的unicode类型处理宽字符串)。

在Python2中,为了兼容性而使用b'xxx',但是它与'xxx'是相同的,并且产生一个str,并且,bytes只是str的同义词。在Python3中,这二者都解决了bytes类型之间的差异。Python2中的u'xxx'和 U'xxx' Unicode字符串常量形式在Python3中已经取消了,而是使用'xxx'替代,因为所有的字符串都是Unicode,即便它们包含所有的ASCII字符。

1.2 Python 3.X:

  • str(用于Unicode文本,包括ASCII)
  • bytes(用 于带有绝对字节值的二进制数据)
  • bytearray(bytes的一种可变的形式)

bytes是一个不可改变的字符序列。
Python 3.0 bytes对象是较小整数的一个序列,其中每个整数都在0到255之间。在python3中bytes主要用于处理那些没有针对每个任意文本格式都编码的raw字节数据(图像和声音文件,以及用来与设备接口的打包数据,或者你想要用python的struct模块处理的C程序)。Python3的bytes类型支持几乎str类型所做的所有相同操作:这包括字符串方法、序列操作,甚至re模块模式匹配。

bytearray是bytes类型的一个变体,它是可变的并且支持原处修改。
它支持str和bytes所支持的常见的字符串操作,以及和列表相同的很多原处修改操作(例如,append和extend方法, 以及向索引赋值)。

1.3文件分类

python3中的文件I/O一般分为两类:文本文件二进制文件
使用建议:
1.如果正在处理图像文件,其他程序创建的、而且必须解压的打包数据,或者一些设 备数据流,则使用bytes和二进制模式文件处理它更合适。如果想要更新数据而不 在内存中产生其副本,也可以选择使用bytearray。

2.如果要处理的内容实质是文本的内容,例如程序输出、H T M L、国际化文本或 CSV或XML文件,可能要使用str和文本模式文件。

2 类型转换

Python 3.0下的类型转换:
• str.encode()和bytes(S, encoding)把一个字符串转换为其raw bytes形式,并且
在此过程中根据一个str创建一个bytes。
• bytes.decode()和str(B, encoding)把raw bytes转换为其字符串形式,并且在此
过程中根据一个bytes创建一个str。

>>> S = 'eggs'
>>> S.encode()
b'eggs'
>>> bytes(S, encoding='ascii')
b'eggs' >>> B = b'spam'
>>> B.decode()
'spam'
>>> str(B, encoding='ascii')
'spam'

3 平台默认编码

3.1 查看系统编码

python2系统编码

Python 2.7.10 (default, Jul 30 2016, 19:40:32)
[GCC 4.2.1 Compatible Apple LLVM 8.0.0 (clang-800.0.34)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>>
>>> import sys
>>> sys.getdefaultencoding()
'ascii'

python3系统编码

Python 3.5.2 (v3.5.2:4def2a2901a5, Jun 26 2016, 10:47:25)
[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
>>> import sys
>>> sys.getdefaultencoding()
'utf-8'

3.2 修改系统编码

如果程序执行的过程中,遇到下面的报错信息时,可以把Python2的系统编码改为utf-8。

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1....
#Python2的系统编码改为utf-8,一般放在文件头
import sys
reload(sys)
sys.setdefaultencoding('utf-8')

4 chardet模块

chardet是python的一个第三方库,常用于编码识别。

4.1 网页编码判断:

from urllib import request
import chardet rawdata = request.urlopen('https://www.baidu.com/').read() tmp = chardet.detect(rawdata)
print(tmp) """
{'encoding': 'ascii', 'confidence': 1.0}
confidence:检测精确度
encoding:编码形式
"""

4.2 文件编码判断

import chardet

with open('text.txt', 'rb') as f:
data = f.readline() tmp = chardet.detect(data)
print(tmp)
"""
{'encoding': 'ascii', 'confidence': 1.0}
"""

5 源文件字符集编码声明

对于在脚本文件中编码的字 符串,python默认地使用UTF-8编码,但是,它允许我们通过包含一个注释来指明想要 的编码,从而将默认值修改为支持任意的字符集。这个注释必须拥有如下的形式,并且 在Python 2.6或Python 3.0中必须作为脚本的第一行或第二行出现:

# -*- coding: latin-1 -*-

6 pickle序列化与编码

pickle模块的Python3版本总是创建一个bytes对象

>>> import pickle
>>> pickle.dumps([1, 2, 3])
b'\x80\x03]q\x00(K\x01K\x02K\x03e.' >>> pickle.dumps([1, 2, 3], protocol=0)
b'(lp0\nL1L\naL2L\naL3L\na.'

序列化于反序列化(在python2与python3中都生效):

>>> import pickle
>>> pickle.dump([1, 2, 3], open('temp', 'wb'))
>>> pickle.load(open('temp', 'rb'))
[1, 2, 3]

7 编码相关的其他方法

sys/locale模块中提供了一些获取当前环境下的默认编码的方法。

# coding:gbk

import sys
import locale def p(f):
print '%s.%s(): %s' % (f.__module__, f.__name__, f()) # 返回当前系统所使用的默认字符编码
p(sys.getdefaultencoding) # 返回用于转换Unicode文件名至系统文件名所使用的编码
p(sys.getfilesystemencoding) # 获取默认的区域设置并返回元祖(语言, 编码)
p(locale.getdefaultlocale) # 返回用户设定的文本数据编码
# 文档提到this function only returns a guess
p(locale.getpreferredencoding)
 
posted @

python编码问题在此终结的更多相关文章

  1. (转载) 浅谈python编码处理

    最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: ...

  2. Python 编码简单说

    先说说什么是编码. 编码(encoding)就是把一个字符映射到计算机底层使用的二进制码.编码方案(encoding scheme)规定了字符串是如何编码的. python编码,其实就是对python ...

  3. Python之路3【知识点】白话Python编码和文件操作

    Python文件头部模板 先说个小知识点:如何在创建文件的时候自动添加文件的头部信息! 通过:file--settings 每次都通过file--setings打开设置页面太麻烦了!可以通过:View ...

  4. python编码规范

    python编码规范 文件及目录规范 文件保存为 utf-8 格式. 程序首行必须为编码声明:# -*- coding:utf-8 -*- 文件名全部小写. 代码风格 空格 设置用空格符替换TAB符. ...

  5. 【转】python编码的问题

    摘要: 为了在源代码中支持非ASCII字符,必须在源文件的第一行或者第二行显示地指定编码格式: # coding=utf-8 或者是: #!/usr/bin/python # -*- coding: ...

  6. 【转】python编码规范

    http://blog.csdn.net/willhuo/article/details/49300441 决定开始Python之路了,利用业余时间,争取更深入学习Python.编程语言不是艺术,而是 ...

  7. python 编码 UnicodeDecodeError

    将一个py脚本从Centos转到win运行,出错如下: UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: il ...

  8. Python编码/文件读取/多线程

    Python编码/文件读取/多线程 个人笔记~~记录才有成长   编码/文件读取/多线程 编码 常用的一般是gbk.utf-8,而在python中字符串一般是用Unicode来操作,这样才能按照单个字 ...

  9. 关于Python编码,超诡异的,我也是醉了

    Python的编码问题,真是让人醉了.最近碰到的问题还真不少.比如中文文件名.csv .python对外呈现不一致啊,感觉好不公平. 没图说个JB,下面立马上图.   我早些时候的其他脚本,csv都是 ...

随机推荐

  1. IOS 常遇到的报错警告 以及 解决办法

    1.  This application is modifying the autolayout engine from a background thread, which can lead to ...

  2. Confluence 6 恢复一个站点有关使用站点导出为备份的说明

    推荐使用生产备份策略.我们推荐你针对你的生产环境中使用的 Confluence 参考 Production Backup Strategy 页面中的内容进行备份和恢复(这个需要你备份你的数据库和 ho ...

  3. Confluence 6 PostgreSQL 测试你的数据库连接

    在你的数据库设置界面,有一个 测试连接(Test connection)按钮可以检查: Confluence 可以连接你的数据库服务器 数据库字符集的编码是否设置正确 你的数据库用户是否有正确的权限可 ...

  4. 【Linux】系统基本命令

    # lsb_release -a 查看系统版本# uname -a # 查看内核/操作系统/CPU信息 # head -n 1 /etc/issue # 查看操作系统版本 # cat /proc/cp ...

  5. java多线程快速入门(二十二)

    线程池的好处: 避免我们过多的去new线程,new是占资源的(GC主要堆内存) 提高效率 避免浪费资源 提高响应速度 作用:会把之前执行某个线程完毕的线程不会释放掉会留到线程池中给下一个调用的线程直接 ...

  6. laravel 服务提供者

    服务提供者,在laravel里面,其实就是一个工厂类.它最大的作用就是用来进行服务绑定.当我们需要绑定一个或多个服务的时候,可以自定义一个服务提供者,然后把服务绑定的逻辑都放在该类的实现中.在lara ...

  7. python网络爬虫笔记(二)

    一.函数调用的默认设置 1.def enroll(name,grnder,age=4,city='Shanghai'): print (''name:',name) print (''gender', ...

  8. 乘法原理,加法原理,多重集的排列数(多个系列操作穿插的排列数) 进阶指南 洛谷p4778

    https://www.luogu.org/problemnew/solution/P4778 非常好的题目,囊括了乘法加法原理和多重集合排列,虽然最后使用一个结论解出来的.. 给定一个n的排列,用最 ...

  9. jQuery File Upload的使用

    jQuery File Upload 是一个Jquery文件上传组件,支持多文件上传.取消.删除,上传前缩略图预览.列表显示图片大小,支持上传进度条显示等,以下就介绍一下该插件的简单使用 1.需要加载 ...

  10. springboot配置Druid监控

    整体步骤: (1)    ——   Druid简单介绍,具体看官网: (2)     —— 在pom.xml配置druid依赖包: (3)    ——  配置application.propertie ...