python读写csv时中文乱码问题解决办法

https://www.cnblogs.com/shengulong/p/7097869.html

CSV是英文Comma Separate Values（逗号分隔值）的缩写，顾名思义，文档的内容是由 “,” 分隔的一列列的数据构成的，可以使用excel和文本编辑器等打开。CSV文档是一种编辑方便，可视化效果极佳的数据存储方式

1、python读写、追加csv方法：

‘r’：只读（缺省。如果文件不存在，则抛出错误）
‘w’：只写（如果文件不存在，则自动创建文件）
‘a’：附加到文件末尾（如果文件不存在，则自动创建文件）
‘r+’：读写（如果文件不存在，则抛出错误）

1 import csv,os

2 if os.path.isfile('test.csv'):

3     with open("test.csv","r") as csvfile:

4         reader = csv.reader(csvfile)

5         #这里不需要readlines

6         for line in reader:

7             print line

import csv

#python2可以用file替代open

#不存在则会创建文件

with open("test.csv","w") as csvfile:

    writer = csv.writer(csvfile)

    #先写入columns_name

    writer.writerow(["index","a_name","b_name"])

    #写入多行用writerows

    writer.writerows([[0,1,3],[1,2,3],[2,3,4]])

import csv

#python2可以用file替代open

#不存在则会创建文件

with open("test.csv","a") as csvfile:

    writer = csv.writer(csvfile)

    #先写入columns_name

    writer.writerow(["index","a_name","b_name"])

    #写入多行用writerows

    writer.writerows([[0,1,3],[1,2,3],[2,3,4]])

2、excel打开csv文件，可以识别编码“GB2312”，但是不能识别“utf-8”,数据库里的字符串编码是utf-8.因此：

当从csv读取数据（data）到数据库的时候，需要先把GB2312转换为unicode编码，然后再把unicode编码转换为utf-8编码：data.decode('GB2312').encode('utf-8')

当从数据库读取数据（data）存到csv文件的时候，需要先把utf-8编码转换为unicode编码，然后再把unicode编码转换为GB2312编码：data.decode('utf-8').encode('GB2312')

3、decode('utf-8')表示把utf-8编码转换为unicode编码；encode('utf-8')表示把unicode编码转换为utf-8编码

4、Unicode只是一个符号集，它规定了符号的二进制代码，却没有规定二进制代码如何存储

5、可以使用python的编码转换模块：codecs

 1 python unicode文件读写：

 2

 3 #coding=gbk

 4 import codecs

 5

 6 f = codecs.open('c:/intimate.txt','a','utf-8')#这里表示把intimate.txt文件从utf-8编码转换为unicode，就可以对其进行unicode读写了

 7 f.write(u'中文')#直接写入unicode

 8 s = '中文'

 9 f.write(s.decode('gbk'))#先把gbk的s解码成unicode然后写入文件

10 f.close()

11

12 f = codecs.open('c:/intimate.txt','r','utf-8')

13 s = f.readlines()

14 f.close()

15 for line in s:

16     print line.encode('gbk')

6、python代码文件的编码

py文件默认是ASCII编码，中文在显示时会做一个ASCII到系统默认编码的转换，这时就会出错：SyntaxError: Non-ASCII character。需要在代码文件的第一行或第二行添加编码指示：

# coding=utf-8 ##以utf-8编码储存中文字符
print ‘中文’像上面那样直接输入的字符串是按照代码文件的编码来处理的，如果用unicode编码，有以下2种方式：
1. s1 = u’中文’ #u表示用unicode编码方式储存信息
2. s2 = unicode(‘中文’,’gbk’)

unicode是一个内置函数，第二个参数指示源字符串的编码格式。

decode是任何字符串具有的方法，将字符串转换成unicode格式，参数指示源字符串的编码格式。

encode也是任何字符串具有的方法，将字符串转换成参数指定的格式。

python字符串的编码

用 u’汉字’ 构造出来的是unicode类型，不用的话构造出来是str类型

str的编码是与系统环境相关的，一般就是sys.getfilesystemencoding()得到的值

所以从unicode转str，要用encode方法

从str转unicode，所以要用decode

例如：

# coding=utf-8   #默认编码格式为utf-8

s = u'中文' #unicode编码的文字

print s.encode('utf-8')   #转换成utf-8格式输出

print s #效果与上面相同，似乎默认直接转换为指定编码

我的总结：

u=u'unicode编码文字'

g=u.encode('gbk') #转换为gbk格式

print g #此时为乱码，因为当前环境为utf-8,gbk编码文字为乱码

str=g.decode('gbk').encode('utf-8')   #以gbk编码格式读取g（因为他就是gbk编码的）并转换为utf-8格式输出

print str #正常显示中文

安全的方法：

s.decode('gbk','ignore').encode('utf-8′) #以gbk编码读取（当然是读取gbk编码格式的文字了）并忽略错误的编码，转换成utf-8编码输出

因为decode的函数原型是decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；

如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

unicode(str,‘gb2312‘)与str.decode(‘gb2312‘)是一样的，都是将gb2312编码的str转为unicode编码

7、代码文件编码：

我们在.py文件开头写的：#-*- coding:utf-8 -*- 声称了代码文件编码为utf-8，这时候，文件里面书写字符串都是utf-8编码的

8、获得系统编码：

import sys

print sys.getdefaultencoding()

9、sys.setdefaultencoding('utf-8')的作用是告诉系统自动解码，也就是自动完成utf-8到unicode编码的转换

#! /usr/bin/env python

# -*- coding: utf-8 -*- 

import sys

reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入

sys.setdefaultencoding('utf-8') 

str = '中文' #这是utf-8编码的字符串

str.encode('gb18030')  #转换为gb18030编码，因为已经自动解码，所以不用写成这种样式：str.decode('utf-8').encode('gb18030')

10、字符编码判断：

法一：
isinstance(s, str) 用来判断是否为一般字符串
isinstance(s, unicode) 用来判断是否为unicode
或
if type(str).__name__!="unicode":
str=unicode(str,"utf-8")
else:
pass
法二：
Python chardet 字符编码判断
使用 chardet 可以很方便的实现字符串/文件的编码检测。尤其是中文网页，有的页面使用GBK/GB2312，有的使用UTF8，如果你需要去爬一些页面，知道网页编码很重要的，虽然HTML页面有charset标签，但是有些时候是不对的。那么chardet就能帮我们大忙了。

chardet实例
>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}
>>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典，有2个元数，一个是检测的可信度，另外一个就是检测到的编码。

chardet 安装
pip install chardet

python读写csv时中文乱码问题解决办法的更多相关文章

关于jFinal开发中遇到的中文乱码问题解决办法
关于jFinal开发中遇到的中文乱码问题解决办法设置tomcat的编码,修改 <Connector port="8080" protocol="HTTP/1.1& ...
maven测试时中文乱码问题解决方法
pom.xml增加-Dfile.encoding=UTF-8配置,如下: <plugin>  <groupId>org. ...
Python读取 csv文件中文乱码处理
需求:按行解析读取csv文件存入关系型数据库——主要是中文字体解析:遇到的问题:直接解析出来的数据为list形式,而且编码格式为unicode;解决问题:前提了解: 中文编码的规则 —— GB2312 ...
IntelliJ IDEA 中文乱码问题解决办法
自己最近在使用IntelliJ IDEA,发现总是出现中文乱码的问题,在网上找了很多教程,发现真是“天下文章一大抄”.还不如自己动手试着解决一下. 1.编辑器以及调试信息中文乱码问题解决方案: 选择 ...
Linux下Birt、JTreeChart中文乱码问题解决办法
Linux下JTreeChart,Birt等报表工具显示中文乱码解决 1) 现象: 在Windows上生成的报表图片展示正常,但是在Linux上显示(怪异的小方块“口”): 2)问题定位: 这是lin ...
Servlet中文乱码问题解决办法
首先对于源jsp网站和servlet里面的字符集要一样,一般支持中文的字符集为UTF-8最好采用这个字符集(除此之外还有gb2312); 对于源jsp文件的代码中需要设置设置你的page里面的字符集 ...
idea控制台中文乱码问题解决办法
解决办法: 打开Intellij的安装的bin目录(D:\Program Files\JetBrains\IntelliJ IDEA 14.0\bin ),找到上图的两个文件(根据你的系统是32位或6 ...
mac中的myeclipse的控制台中文乱码问题解决办法
之前写java用到控制台的主要是字符和数字,中文输入貌似真的还没用过,所以就遇到了一个悲剧的老问题,估计每个程序员都会遇到——中文乱码. 用的是MyEclipse开发环境,Window->Gen ...
Android Studio导出JavaDoc时中文乱码问题解决
导出过程中,如果出现JavaDoc中文乱码的问题,可以在Other command line arguments栏目添加命令参数:-encoding UTF-8 -charset UTF-8(如果是G ...

随机推荐

Linux 中的 grep 命令
一,grep命令有什么用个人觉得grep命令就是一个对文本或输出进行匹配并控制输出的一个工具,看一下下面的参数,部分翻译了,有不对的地方,还请指正: grep --help 匹配模式选择: -E, ...
20144303石宇森《网络对抗》注入shellcode和Return-to-libc攻击
20144303石宇森<网络对抗>PC平台逆向破解实验1:shellcode注入实验基础 1.Linux下有两种基本构造攻击buf的方法:retaddr+nop+shellcode,n ...
PN结讲解
可能大家在使用半导体器件的时候只是在使用它的电气属性,并没有很好的关心下它是什么原因才有了这样的电气属性,那么我们本篇就从物理结构分析下PN结吧. 首先看一张比较陈旧的图图: (就按自己的笔记简单谈谈 ...
SQLSERVER中order by ,group by ,having where 的先后顺序
SELECT [Name] FROM [LinqToSql].[dbo].[Student] where name='***' group by name having (name='* ...
P3386 【模板】二分图匹配 -网络流版
二分图匹配题目背景二分图感谢@一扶苏一提供的hack数据题目描述给定一个二分图,结点个数分别为n,m,边数为e,求二分图最大匹配数输入输出格式输入格式: 第一行,n,m,e 第二至e+ ...
【Tomca安装与启动】tomcatLinux环境安装与启动
一.安装 1.下载tomcat安装包 2.解压安装包 3.配置环境变量打开~/.bash_profile文件,输入一下两句话: export TOMCAT_HOME=/Users/enniu1/De ...
BZOJ1304: [CQOI2009]叶子的染色树形dp
Description 给一棵m个结点的无根树,你可以选择一个度数大于1的结点作为根,然后给一些结点(根.内部结点和叶子均可)着以黑色或白色.你的着色方案应该保证根结点到每个叶子的简单路径上都至少包含 ...
C#学习笔记（十六）：索引器和重载运算符
二维数组如何映射到一维数组重载运算符 1.算术运算符 2.关系运算符, < 和 > 成对重载 using System; using System.Collections.Generic ...
02_Spark Application不同模式下的监控
监控Spark Application的运行官方文档: http://spark.apache.org/docs/latest/monitoring.html 1.1 监控方式 Driver Pro ...
MVC ---- 无法将类型"System.Data.EntityState"隐式转换为"System.Data.Entity.EntityState"
1.EF 5.0解决方法先卸载EF:Uninstall-Package EntityFramework -Force 在安装EF5.0:Install-Package EntityFramework ...

python读写csv时中文乱码问题解决办法

python读写csv时中文乱码问题解决办法的更多相关文章

随机推荐

热门专题