python 读不同编码的文本，传递一个可选的encoding 参数给open() 函数

文件的读写操作默认使用系统编码，可以通过调用sys.getdefaultencoding() 来得到。在大多数机器上面都是utf-8 编码。如果你已经知道你要读写的文本是其他编码方式，那么可以通过传递一个可选的encoding 参数给open() 函数。如下所示：
with open('somefile.txt', 'rt', encoding='latin-1') as f:
...
Python 支持非常多的文本编码。几个常见的编码是ascii, latin-1, utf-8 和utf-16。在web 应用程序中通常都使用的是UTF-8。ascii 对应从U+0000 到U+007F 范围内的7 位字符。latin-1 是字节0-255 到U+0000 至U+00FF 范围内Unicode 字符的直接映射。当读取一个未知编码的文本时使用latin-1 编码永远不会产生解码错误。使用latin-1 编码读取一个文件的时候也许不能产生完全正确的文本解码数据，但是它也能从中提取出足够多的有用数据。同时，如果你之后将数据回写回去，原先的数据还是会保留的。

是文本文件中可能出现的编码错误。但你读取或者写入一个文本文件时，你可能会遇到一个编码或者解码错误

>>> f = open('sample.txt', 'rt', encoding='ascii')

>>> f.read()

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

File "/usr/local/lib/python3.3/encodings/ascii.py", line 26, in decode

return codecs.ascii_decode(input, self.errors)[0]

UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position

12: ordinal

如果出现这个错误，通常表示你读取文本时指定的编码不正确。你最好仔细阅读说明并确认你的文件编码是正确的(比如使用UTF-8 而不是Latin-1 编码或其他)。如果编码错误还是存在的话，你可以给open() 函数传递一个可选的errors 参数来处理这些错误。下面是一些处理常见错误的方法：

>>> f = open('sample.txt', 'rt', encoding='ascii', errors='replace')

>>> f.read()

'Spicy Jalape?o!'

>>> # Ignore bad chars entirely

>>> g = open('sample.txt', 'rt', encoding='ascii', errors='ignore')

>>> g.read()

'Spicy Jalapeo!'

>>>

如果你经常使用errors 参数来处理编码错误，可能会让你的生活变得很糟糕。对于文本处理的首要原则是确保你总是使用的是正确编码。当模棱两可的时候，就使用默认的设置(通常都是UTF-8)。

python 读不同编码的文本，传递一个可选的encoding 参数给open() 函数的更多相关文章

Python遇到字符编码出问题的一个相对万能的办法
在使用Python做爬虫的过程中,经常遇到字符编码出问题的情况. UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' ...
关于ng路由的传参问题(传递一个，多个参数)
在ng的页面条转传参数的方法,ui-sref,$state Ui-sref:用于html页面进行单页面的跳转 $state:用于js代码中跳转重点:明确传递方,接受方 [传递单个参数] 对于传递方: ...
Python之路-python（set集合、文本操作、字符编码）
一.集合操作(set) ...
python高级（四）—— 文本和字节序列（编码问题）
本文主要内容字符字节结构体和内存视图字符和字节之间的转换——编解码器 BOM鬼符标准化Unicode字符串 Unicode文本排序 python高级——目录文中代码均放在github上: ...
《Python CookBook2》第一章文本 - 每次处理一个字符 && 字符和字符值之间的转换
文本 - 总结: 什么是文本Python 中的string 类型是不可变类型.文本,一个字符的矩阵,每一个单独的文本快可以被缩进和组织起来. 基本的文本操作①解析数据并将数据放入程序内部的结构中:②将 ...
python小练习1：设计这样一个函数，在桌面的文件夹上创建10个文本，以数字给它们命名。
python小练习1:设计这样一个函数,在桌面的文件夹上创建10个文本,以数字给它们命名. 使用for循环即可实现: for name in range(1,11): desktop_path='C: ...
python知识：json格式文本；异常处理；字符串处理；unicode类型和str类型转换
python进程中的实例和json格式的字符串之间的映射关系是非常直接的,相当于同一个概念被编码成不同的表示: stream in json form ----json.loads(str)----- ...
python中的编码与解码
编码与解码首先,明确一点,计算机中存储的信息都是二进制的编码/解码本质上是一种映射(对应关系),比如‘a’用ascii编码则是65,计算机中存储的就是00110101,但是显示的时候不能显 ...
Python之字符编码与文件操作
目录字符编码 Python2和Python3中字符串类型的差别文件操作文件操作的方式文件内光标的移动文件修改字符编码什么是字符编码? ''' 字符编码就是制定的一个将人类的语言的字符与二 ...

随机推荐

C# DataTbale详细操作
1.创建DataTable对象 DataTable dt = new DataTable("Table_AX"); 2.为DataTable创建列 //方式一(我觉得这种好) dt ...
Android 使用MediaPlayer 播放视频
http://pan.baidu.com/s/1lgKLS package cn.bgxt.surfaceviewdemo; import java.io.File; import android.m ...
vim自定义语法高亮（syntax highlight）设置流程
这里用一个非常简单的例子来展示vim自定义自己的语法并高亮显示的设置流程. 所使用的实例语言是python,为了区分vim自带的python语法,我们把文件名保存为test.me,其内容如下图所示: ...
Maven 搭建 SSM框架——Spring+SpringMVC+Mybatis的搭建教程
一:概述 SSM框架在项目开发中经常使用到,相比于SSH框架,它在仅几年的开发中运用的更加广泛. Spring作为一个轻量级的框架,有很多的拓展功能,最主要的我们一般项目使用的就是IOC和AOP.Sp ...
Spring注解及作用
一: spring mvc中的@PathVariable是用来获得请求url中的动态参数的 @PathVariable用于方法中的参数,表示方法参数绑定到地址URL的模板: 例 @Controller ...
poj1269 intersecting lines【计算几何】
We all know that a pair of distinct points on a plane defines a line and that a pair of lines on a p ...
JSP学习_02
JavaBean是特殊的Java类,使用Java语言编写,遵守JavaBean规范JavaBean同其他Java类一些独一无二的属性:拥有一个默认的构造函数需要被序列化并实现Serializable接 ...
TensorFlow 实现分类操作的函数学习
函数:tf.nn.sigmoid_cross_entropy_with_logits(logits, targets, name=None) 说明:此函数是计算logits经过sigmod函数后的交叉 ...
wampserver 权限配置
当你按照网上以前介绍的wamp配制方法,安装好wamp后.本地的locallhost和127.0.0.1一切都正常,他们都能对你本地的网页文件进行访问.这里说一说,手机借助wamp访问本地文件的方法. ...
Memcached与redis的比较--stackoverflow（转）
原文:http://blog.nosqlfan.com/html/3729.html 这两年Redis火得可以,Redis也常常被当作Memcached的挑战者被提到桌面上来.关于Redis与Memc ...

python 读不同编码的文本，传递一个可选的encoding 参数给open() 函数

python 读不同编码的文本，传递一个可选的encoding 参数给open() 函数的更多相关文章

随机推荐

热门专题