python 字符编码转换

#!/bin/env python
#-*- encoding=utf8 -*-
# 文件头指定utf8编码还是乱码时，使用下面方式指定

# fix encoding problem 
import sys

reload(sys)

sys.setdefaultencoding('utf8')  # 设置编码
sys.getdefaultencoding()  # 获取编码

-------------------------------------------------------

sys.path.append('../')  # 设置路径

 #coding=utf-8

 s='中文'

 if(isinstance(s, str)):

     #s为u'中文'

     s.encode('gb2312')

 else:

     #s为'中文'
     s.decode('utf8').encode('gb2312')

python 内部使用unicode表示字符串，自然当需要编码转换时，要用unicode作为中间“中间编码”，

eg:

gbk转utf-8时，

gbk --> unicode --> utf-8

分解为两个步骤:

1. gbk --> unicode

python语法：字符串.decode('gbk')

2. unicode --> utf-8

python语法: 字符串.decode('gbk').encode('utf-8')

对于已经是Unicode编码的字符串，可以直接encode，而不能decode了。这种情况下，需要代码给出判断，

可以使用python __builtin__.py中提供的函数：isinstance() 去判断python范围内的任何“类型”，当然也

可以判断是不是unicode：

if isinstance(yourchar, unicode):

communicate = yourchar.encode('utf-8') #直接编码成utf-8格式

else :

# 此处没有进行过测试，如果出错可以直接使用: communicate = yourchar.decode('你当前的编码类型', errors='ignore').encode('utf-8')

import chardet # chardet.detect 可以试探字符串类型，估计是某种字符的概率

type_decode = chardet.detect(yourchar)['encoding']

communicate = yourchar.decode(type_decode, errors='ignore').encode('utf-8')

errors:

因为unicode 只有128那么长，所以为了“容错”，这里有3个级别，

errors='strict' # 很严格，出错（多于128）就异常

errors='replace' # add U+FFFD, 'REPLACEMENT CHARACTER'

　　 errors = 'ignore' # 用短的替换

python 字符编码转换的更多相关文章

Python—字符编码转换、函数基本操作
字符编码转换函数 #声明文件编码,格式如下: #-*- coding:utf-8 -*- 注意此处只是声明了文件编码格式,python的默认编码还是unicode 字符编码转换: import sy ...
day4学python 字符编码转换+元组概念
字符编码转换+元组概念字符编码转换 #coding:gbk //此处必声明文件编码(看右下角编码格式) #用来得到python默认编码 import sys print(sys.getdefaul ...
python字符编码转换说明及深浅copy介绍
编码说明: 常用编码介绍: ascii 数字,字母特殊字符. 字节:8位表示一个字节. 字符:是你看到的内容的最小组成单位. abc : a 一个字符. 中国:中一个字符. a : 0000 10 ...
Python字符编码转换
编码回顾在备编码相关的课件时,在知乎上看到一段关于Python编码的回答这哥们的这段话说的太对了,搞Python不把编码彻底搞明白,总有一天它会猝不及防坑你一把.不过感觉这哥们的答案并没把编码问题写 ...
python字符编码（二）
一.什么是字符编码计算机要想工作必须通电,也就是说‘电’驱使计算机干活,而‘电’的特性,就是高低电压(高低压即二进制数1,低电压即二进制数0),也就是说计算机只认识数字编程的目的是让计算机干活,而 ...
深入理解Python字符编码--转
http://blog.51cto.com/9478652/2057896 不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError ...
深入理解Python字符编码
不论你是有着多年经验的 Python 老司机还是刚入门 Python 不久,你一定遇到过UnicodeEncodeError.UnicodeDecodeError 错误,每当遇到错误我们就拿着 enc ...
Learning-Python【8】：Python字符编码
1.内存和硬盘都是用来存储的内存:速度快硬盘:永久保存 2.文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就可以启动一个进程,是在内存中的,所以在编辑器编写的 ...
关于Python字符编码encode和decode
(注:本文部分内容摘自互联网,由于作者水平有限,不足之处,还望留言指正.) 记得几天前,部门的一个小姑娘问我,怎么她Python打印出来的中文信息都乱码了?我走过去,略思一二,瞬间给她搞定,其实这是字 ...

随机推荐

SQLServer count函数、cross apply和outer apply、
1.COUNT(column_name) 函数返回指定列的值的数目(NULL 不计入)2.COUNT(*) 函数返回表中的记录数 select * from TABLE_1 T1 outer ap ...
NAT 网络地址转换
NAT 网络地址转换(Network Address Translation) NAT(Network Address Translation,网络地址转换)是1994年提出的. 属接入广域网(WA ...
Struts1.x有两个execute方法，不要重写错哦HttpServletRequest才是对的（转）
Struts1.x 的 Action 有两个 execute 哦,小心搞错! by agate - Published: 2008-05-01 [9:42 下午] - Category: 程序编码不 ...
R语言-数据高级管理
数学函数 abs() 绝对值 sqrt() 平方 ceiling() 向上取整 floor() 向下取整 trunc() 截取整数部分 round(x,digits = n) 保留几位小数统计函数 ...
Windows下Apache配置域名
1.打开httpd.conf 找到“Include conf/extra/httpd-vhosts.conf”这一行,取消前面的#号注释并保存 2.修改httpd-vhosts.conf文件进入ap ...
[POJ3468] A Simple Problem with Integers (Treap)
题目链接:http://poj.org/problem?id=3468 这题是线段树的题,拿来学习treap. 不旋转的treap. #include <cstdio> #include ...
Win8.1安装Visual Studio 2015提示需要KB2919355
http://www.microsoft.com/zh-cn/download/details.aspx?id=42335 安装说明: 1.若要开始下载,请单击“下载”按钮,然后执行以下操作之一,或者 ...
How to pronounce symbols on keyboard
Refefrence: http://answers.yahoo.com/question/index?qid=20100607151104AAtQxhc ~ “tilde” or “tweedle” ...
牛客网程序员面试金典：1.1确定字符互异(java实现)
问题描述: 请实现一个算法,确定一个字符串的所有字符是否全都不同.这里我们要求不允许使用额外的存储结构. 给定一个string iniString,请返回一个bool值,True代表所有字符全都不同, ...
十四、View Port 2.0
1. 分为以下几类: (1) data classes: 用来访问scene中的geometry 和 shaders (2)scene override: 主要是用户自定义的drawing .shad ...

python 字符编码 转换

python 字符编码 转换的更多相关文章

随机推荐

热门专题

python 字符编码转换

python 字符编码转换的更多相关文章