解决python2.x文件读写编码问题
转自: https://xrlin.github.io/解决python2.x文件读写编码问题/
python2.X版本在处理中文文件读写时经常会遇到乱码或者是UnicodeError错误,正如下面的程序所示:
#coding=utf-8
# test.txt是一个以gbk2312编码(简体中文windows系统中的默认文本编码)的文本文件
# 文本写入
with open('test.txt', 'a') as f:
f.write('test') # 正常写入
f.write('测试') # 正常写入,乱码
f.write(u’测试') # 写入错误,触发UnicodeEncodeError异常
# 文本读取
with open('test.txt') as f:
for line in f:
print line, type(line) # 输出test娴嬭瘯, <type 'str'>
由于脚本源文件中的字符为utf-8编码,而文本文档中的字符为gb2312编码,所以以str类型字符串直接写入文件,此时str字符串的编码与文件编码不同,导致乱码。 直接str类型参数传递给write方法容易导致乱码问题,直接传递Unicode类型字符串作为write的参数,会导致UnicodeEncodeError错误,这是因为python2在写入unicode字符串时会自动尝试转码为ascii编码,而ascii编码并不能处理中文。 知道了问题的根源,首先想到的解决方法就是对源字符串按照文件进行编码,保证编码正确。
# 解决方法1
with open('test.txt', 'w') as f:
f.write('测试'.decode('utf-8').encode('gb2312'))
f.write(u'测试‘.ecode('gb2312')
如果是str类型的字符串,需要使用decode(因为我在脚本中设定#coding=utf8,所以使用decode(‘utf-8’))将其改变为python内部使用的Unicde编码然后使用encode转换成对应的编码类型。
读写操作都需要进行编码转换是个容易导致错误而且烦人的问题,python中提供了codecs这个内置自然语言处理模块方便我们进行不同编码语言的处理,codecs模块的open方法可以指定encoding参数设定文件的编码格式,以后codecs会自动处理文件的读写编码问题,读取的字符串和写入时的字符串参数统一使用python的Unicode类型。使用codecs的open方法代替原来的open方法发可以摆脱烦人的文件编码问题。
with codecs.open('test.txt', 'w', encoding='utf-8') as f:
f.write(u'测试')
with codecs.open('text.txt', encoding='utf-8') as f:
for line in f:
print line, type(line) # output: 测试<type 'unicode'>
解决python2.x文件读写编码问题的更多相关文章
- 【原创】python中文编码问题深入分析(三):python2.7文件读写中文编码问题
上一篇文章介绍和分析了python2.7中使用print遇到的中文编码问题的原因和解决方案,本篇主要介绍一下python2.7中执行文件读写可能遇到的编码问题. 1.文件读取 假如我们读取一个文件,文 ...
- XML文件读写编码不是UTF-8的问题
FileWriter和FileReader在写.读文件时,使用系统当前默认的编码方式. 在中文win下encoding基本是GB2312,在英文win下基本是ISO-8859-1.所以要创建一个UTF ...
- python 文件读写编码
- 第六篇.文件处理之python2和3字符编码的区别
目录 python2和3字符编码的区别 一.字符编码应用之python python2和3字符编码的区别 一.字符编码应用之python 1执行python的三个阶段 python test.py 执 ...
- 解决Python2中文ascii编码的方法
在YiiChina签到的时候,经常会看到有人在说说里面发群主是最帅的,yii 是 PHP 最好的框架,没有之一,就想到使用一言,在每天签到的时候也发一句话 同时使用方糖将内容推送到微信,防止有什么不对 ...
- Java文件读写操作指定编码方式防乱码
读文件:BufferedReader 从字符输入流中读取文本,缓冲各个字符,从而提供字符.数组和行的高效读取. 可以指定缓冲区的大小,或者可使用默认的大小.大多数情况下,默认值就足够大了. 通常,Re ...
- Python之文件读写
本节内容: I/O操作概述 文件读写实现原理与操作步骤 文件打开模式 Python文件操作步骤示例 Python文件读取相关方法 文件读写与字符编码 一.I/O操作概述 I/O在计算机中是指Input ...
- 解决Python2.7的UnicodeEncodeError:'ascii' codec can't encode characters in position 0-78: ordinal not in range(128)异常错误
解决Python2.7的UnicodeEncodeError: 'ascii' codec can't encode异常错误 大家都知道,在使用python进行网络爬虫时,最头疼的就是转码问题,下面是 ...
- 【转】Python之文件读写
[转]Python之文件读写 本节内容: I/O操作概述 文件读写实现原理与操作步骤 文件打开模式 Python文件操作步骤示例 Python文件读取相关方法 文件读写与字符编码 一.I/O操作概述 ...
随机推荐
- App测试需注意
APP测试的时候,建议让开发打好包APK和IPA安装包,测试人员自己安装应用,进行测试.在测试过程中需要注意的测试点如下: 1安装和卸载 ●应用是否可以在iOS不同系统版本或Android不同系统版本 ...
- clog,cout,cerr 输出机制
clog:控制输出,使其输出到一个缓冲区,这个缓冲区关联着定义在 <cstdio> 的 stderr. cerr:强制输出刷新,没有缓冲区. cout:控制输出,使其输出到一个缓冲区,这个 ...
- poj1063
题意:有一些珠子排成一圈,珠子有两种颜色:黑和白.每次操作可以调换中间隔着一个珠子的两珠子的位置,给出这个圈子的初始状态,问最终能否通过操作让圈子中所有同色的珠子排在一起,即黑白分开. 分析:分两种情 ...
- mysqlbinlog的日志类型
一.mysqlbinlog简介 binlog又叫二进制日志文件,它会将mysql中所有修改数据库数据的Query以二进制的形式记录到日志文件中,如:create,insert,drop,update等 ...
- java基础51 IO流技术(打印流)
1.打印流(printStream)的概念 打印流可以打印任意的数据类型 2.printStream的步骤 1.找到目标文件 2.创建一个打印流 3.打印信息 4.关闭资源 3.实例 ...
- 不同Linux机器之间拷贝文件
不同的Linux之间copy文件常用有3种方法: 第一种就是ftp,也就是其中一台Linux安装ftp Server,这样可以另外一台使用ftp的client程序来进行文件的copy. 第二种方法就是 ...
- No.5 selenium学习之路之多窗口句柄
多窗口相关操作 获取当前句柄 c_handle = driver.current_window_handle 获取所有句柄 all_handle = driver.window_handles 切换到 ...
- P1986 元旦晚会
一道可以用各种各样的办法做的(水)题 在这里就介绍两种做法 题意: 自己看看吧,很明显的意思,就是求前i个人最少有多少个话筒. 解法1:差分约束 设\(dis[i]\)表示前\(i\)个人最少有多少个 ...
- Web基础 - Cookie与Session
常用的调试以及抓包工具: Wireshark tcpdump fiddler 首先弄清楚几个概念,什么是cookie,什么是session,以及为什么会有这两个东东,这两个东东的作用是什么? 这里使用 ...
- HDU 1669 Jamie's Contact Groups(多重匹配+二分枚举)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1669 题目大意: 给你各个人可以属于的组,把这些人分组,使这些组中人数最多的组人数最少,并输出这个人数 ...