Python2 中文编码处理

今天写了几个脚本，都遇到了中英文混编的情况。需求要将其中的中文标点符号切换为英文符号。
举个例子:

tags = '你好，good, 国语'

要将其中的中文半角逗号替换为英文逗号，为了方便后续的处理

如下处理:

tags = tags.replace('，', ',')

会抛出如下异常：
UnicodeDecodeError: 'ascii' codec can't decode byte ...

python中字串分成两种，byte string 和unicode string

一般来说，设定好#coding=utf-8后，所有带中文的参数都会声明成utf-8编码的byte string

但是在函数中产生的字串则是unicode string

byte string 和 unicode string不能混用，所以就会抛出UnicodeDecodeError异常

byte_str = 'hello, this is byte string'

unicode_str = u'hello, this is unicode string'

所以有三种解决方案：

1. 全都转为byte string

2. 全都转为unicode string

3. 设置系统编码

1. 全都转为byte string

'你好' + request.forms.tags.encode('utf-8')

2. 全都转unicode.string

u'你好' + request.forms.tags

byte string 和unicode string相互转换

b_s = 'test'

u_s = unicode(b_si, 'utf-8')

back_to_b_s = u_s.encode('utf-8')

3. 设置系统默认编码

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

这样就可以任意的使用了

所以上面的问题就有解了：

tags = tags.replace(unicode('，','utf-8'), ',')

或者

tags = tags.encode('utf-8').replace('，', ',')

或者
调用setdefaultencoding设置系统encoding了

此外，还有读取UTF-8文件

可以使用codecs模块

import codecs

handler = codecs.open('test', 'r', 'utf-8')

u = handler.read()  # returns a unicode string from the UTF-8 bytes in the file

codesc还能将传给write的unicode string转换为任何编码

在编写代码过程中，变量必须是ascii编码的，为了可以在文件中写中文，python需要知道文件不是ASCII编码

在

#!/usr/bin/env python

下添加

# -*- coding: utf-8 -*-

以上在python2中有效，在python3中已经区分了unicode string 和byte string,并且默认编码不再是ASCII

参考资料

http://www.evanjones.ca/python-utf8.html

Python2 中文编码处理的更多相关文章

第一天-python基础
每一个今天的坚持都会改变明天的自己! 一.python介绍 python是一门由解释型.弱类型的高级开发编程语言,由龟叔于1989圣诞开发出,后经过二十多年的发展,因其简洁高效的特点而被广泛使用,在世 ...
Python基础第一课
Python基础安装软件并配置环境变量 1.第一句python --初学后缀名可以是任何数 --后期学习需要导入模块时不是py后缀名会报错 2.两种执行方式 Python解释器 py文件路径 Pyt ...
【原创】python中文编码问题深入分析（三）：python2.7文件读写中文编码问题
上一篇文章介绍和分析了python2.7中使用print遇到的中文编码问题的原因和解决方案,本篇主要介绍一下python2.7中执行文件读写可能遇到的编码问题. 1.文件读取假如我们读取一个文件,文 ...
python2（中文编码问题）：UnicodeDecodeError: 'ascii' codec can't decode byte 0x?? in position 1
python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't deco ...
Python2.x 里解决中文编码的万能钥匙
注意: Python2.x默认编码环境是ASCII,当和取回的数据编码格式不一致时,可能会造成乱码:我们可以指定保存内容的编码格式,一般情况下,我们可以在代码最上方添加 import sys relo ...
python2.7 的中文编码处理，解决UnicodeEncodeError: 'ascii' codec can't encode character 问题
最近业务中需要用 Python 写一些脚本.尽管脚本的交互只是命令行 + 日志输出,但是为了让界面友好些,我还是决定用中文输出日志信息. 很快,我就遇到了异常: UnicodeEncodeError: ...
简介python2.x的编码
python2.x的中文编码真是令人头痛,简单写下自己的一点python编码转换的体会. windows平台用的默认编码格式为gbk >>> s = raw_input() #在wi ...
python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨
python系列均基于python3.4环境 ---------@_@? --------------------------------------------------------------- ...
[python基础]关于中文编码和解码那点事儿
我们在用python处理中文的时候,或多或少会遇到这样一些错误常见错误1: SyntaxError: Non-ASCII character '\xe4' in file C 常见错误2: Unic ...

随机推荐

SURF分析算法
SURF分析算法一个.整体形象这个概念是积分图像Viola和Jones建议.随机位积分图像(i.j)的值原始图象的左上角随机点(i,j)级配相应的重点领域值的总和,其数学公式如图1所看到的 ...
快速构建Windows 8风格应用3-打包发布应用
原文:快速构建Windows 8风格应用3-打包发布应用本篇博文主要介绍如何打包应用程序,成功后如何部署应用程序,最后介绍如何发布应用程序到应用商店中. 如何打包Windows 8风格应用程序呢? ...
Ajax跨域原理及JQuery中的实现
浅析Ajax跨域原理及JQuery中的实现分析 AJAX 的出现使得网页可以通过在后台与服务器进行少量数据交换,实现网页的局部刷新.但是出于安全的考虑,ajax不允许跨域通信.如果尝试从不同的域请 ...
Smarty属性
Attributes [属性] 大多数函数都带有自己的属性以便于明确说明或者修改他们的行为. smarty函数的属性很像HTML中的属性. 静态数值不需要加引号,但是字符串建议使用引号. 如果用 ...
[转]理解C# 4 dynamic(1) - var, object, dynamic的区别以及dynamic的使用
阅读目录: 一. 为什么是它们三个二. 能够任意赋值的原因三. dynamic的用法四. 使用dynamic的注意事项一. 为什么是它们三个? 拿这三者比较的原因是它们在使用的时候非常相似.你 ...
SignalR的服务器广播
可以试试 https://github.com/angular-ui/bootstrap 这个框架啊 [渣译文] SignalR 2.0 系列:SignalR的服务器广播 2014-03-13 09: ...
POJ 1002 UVA 755 487--3279 电话排序简单但不容易的水题
题意:给你许多串字符串,从中提取电话号码,输出出现复数次的电话号码及次数. 以下是我艰难的AC历程:(这题估计是我刷的题目题解次数排前的了...) 题目不是很难理解,刚开始想到用map,但stl的ma ...
duilib开源界面库
官网: https://code.google.com/p/duilib/ 基于:http://www.viksoe.dk/code/windowless1.htm 教程: http://www.cn ...
cookie和session详解[转]
文章链接: http://aijezdm915.iteye.com/blog/1272530 cookie.session 都是用来保存用户状态信息的一种方法或手段二者主要区别是: ...
随手复习一下委托：delegate
先骂个街,天儿太闷了…… 随手复习一下委托,delegate 是一种函数指针,是 .net 提供的一种安全的函数指针,翻译的也很贴切,像是委托人,又像代理人,通过“委托”来执行一些函数而不是直接调用它 ...

Python2 中文编码处理

Python2 中文编码处理的更多相关文章

随机推荐

热门专题