python任意编码转utf8或者unicode

# encoding: utf-8
'''
Created on 2015年2月8日

@author: 张鹏程 aprial@163.com
@copyright: 版权所有, 尊重劳动成功, 转载与修改请注明作者
'''
import traceback

import chardet

def mytoutf8(s):
return mytounicode(s).encode('utf-8')

def mytounicode(s):
    if type(s) == type(u''):
#         print '1'
        return s
    try:
#         print '2'
        s = s.decode('utf-8')
    except:
        try:
#             print '3'
            s = s.decode('gb18030')
        except:
            print '***Error: decode string({0})'.format(repr(s))
            print traceback.print_exc()
            s = repr(s)
#     print '4'
    return s

if __name__ == '__main__':
    # test 中国i love you
    # utf-8
    s = ur'中国i love you'
    print repr(s), s
    cc = ['utf-8', 'gb18030', 'gbk']
    fn = [mytounicode, mytoutf8, ]
    for f in fn:
        for c in cc:
#             print '=' * 80
            print '''{0:<20}({1:10}) = {2:<50}, {3}'''.format(f.__name__, c, repr(f(s.encode(c))), f(s.encode(c)))

直接使用chardet，转码可能会得不到预期的结果。

使用中，chardet.detect()返回字典，其中confidence是检测精确度，encoding是编码形式

以下是chardet的使用方法节选自：http://www.cnblogs.com/xiaowuyi/archive/2012/03/09/2387173.html

（1）网页编码判断：

>>> import urllib
>>> rawdata = urllib.urlopen('http://www.google.cn/').read()
>>> import chardet
>>> chardet.detect(rawdata)
{'confidence': 0.98999999999999999, 'encoding': 'GB2312'}

（2）文件编码判断

import chardet
tt=open('c:\\111.txt','rb')
ff=tt.readline()
#这里试着换成read(5)也可以，但是换成readlines()后报错
enc=chardet.detect(ff)
print enc['encoding']
tt.close()

python任意编码转utf8或者unicode的更多相关文章

汉字与区位码互转(天天使用Delphi的String存储的是内码，Windows记事本存储的文件也是内码)，几个常见汉字的各种编码，utf8与unicode的编码在线查询，附有读书笔记 good
汉=BABA(内码)=-A0A0=2626(区位码)字=D7D6(内码)=-A0A0=5554(区位码) 各种编码查询表:http://bm.kdd.cc/ 汉(记住它,以后碰到内存里的数值,就会有敏 ...
paip.utf-8，unicode编码的本质输出unicode文件原理 python
paip.utf-8,unicode编码的本质输出unicode文件原理 python #别的语言,java php都是unicode,走十python不一样. #enddef #t ...
Python中GBK, UTF-8和Unicode的编码问题
编码问题,一直是使用python2时的一块心病.几乎所有的控制台输入输出.IO操作和HTTP操作都会涉及如下的编码问题: UnicodeDecodeError:‘ascii’codec can’t d ...
Python中的Unicode编码和UTF-8编码
下午看廖雪峰的Python2.7教程,看到字符串和编码一节,有一点感受,结合崔庆才的Python博客 ,把这种感受记录下来: ASCII码:是用一个字节(8bit, 0-255)中的127个字母表 ...
python中的字符串编码问题——2.理解ASCII码、ANSI码、Unicode编码、UTF-8编码
ASCII码:全名是American Standard Code for Information Interchange,ASCII码中,一个英文字母(不分大小写)占一个字节的空间,范围0x00~0x ...
关于几种编码详解（Unicode，UTF-8，GB系列）
最近学Python,老是被编码的问题搞得晕乎乎的,晚上看了好多篇博客,整理出来一个比较清晰的关于几种编码以及字符集的思路. 主要参考:http://blog.sina.com.cn/s/blog_6d ...
关于Python文档读取UTF-8编码文件问题
近来接到一个小项目,读取目标文件中每一行url,并逐个请求url,拿到想要的数据. #-*- coding:utf-8 -*- class IpUrlManager(object): def __in ...
【JAVA编码专题】JAVA字符编码系列一：Unicode,GBK,GB2312,UTF-8概念基础
这两天抽时间又总结/整理了一下各种编码的实际编码方式,和在Java应用中的使用情况,在这里记录下来以便日后参考. 为了构成一个完整的对文字编码的认识和深入把握,以便处理在Java开发过程中遇到的各种问 ...
PYTHON编码处理-str与Unicode的区别
一篇关于STR和UNICODE的好文章整理下python编码相关的内容注意: 以下讨论为Python2.x版本, Py3k的待尝试开始用python处理中文时,读取文件或消息,http参数等等 ...

随机推荐

qt5.10.1编译记录
qt版本更新比较快,不知道选哪个版本合适,故选择一个较新版本的. 平台imx6 + linux4.1.16 + qt5.10.1 采用明远智睿提供的编译器:fsl-imx-fb-g ...
TouTiao开源项目分析笔记19 问答内容
1.真实页面预览 1.1.成果预览首先是问答列表然后每个item设置点击事件,进入问答内容列表然后每一个问答内容也设置点击事件,进入问答详情 1.2.触发事件. 在WendaArticleOne ...
mysql安装与基本管理，mysql密码破解
一.MySQL介绍 MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,目前属于 Oracle 旗下公司.MySQL 最流行的关系型数据库管理系统,在 WEB 应用方面MySQL是 ...
ios交叉编译dylib
ios交叉编译dylib 因多个静态库,libes,libffmpeg,libmt. libpcap 使用不方便在封装一层接口,生成动态库(c代码),由IOS app上层调用. IOS_BASE_S ...
《1024伐木累》-BUG的通用解决办法
本周月侠出场,一番侠骨柔情,或许你会为丽姐担忧,或许你也很想知道,发现了一个不该发现的秘密,月侠的未来究竟会怎样,但是一切都只是一个开头,伴随故事成长,伴随故事了解时事,尤其是IT圈子里的事儿,或许真 ...
《Cracking the Coding Interview》——第8章：面向对象设计——题目4
2014-04-23 18:17 题目:设计一个停车位的类. 解法:停车位,就要有停车.取车的功能了.另外我还加了一个工作线程用于计费,每秒给那些有车的车位加1块钱费用. 代码: // 8.4 Des ...
为什么要内存对齐 Data alignment: Straighten up and fly right
转载于http://blog.csdn.net/lgouc/article/details/8235471 为了速度和正确性,请对齐你的数据. 概述:对于所有直接操作内存的程序员来说,数据对齐都是很重 ...
postman与charles的结合使用
1.准备charles环境 Charles端口一般配置的为8888,不知道怎么配置详见charles文档打开charles,发现访问浏览器任意页面都是失败. 在浏览器的高级设置中设置代理服务器,以火 ...
Linux认知之旅【02 装个软件玩玩】！
〇.命令行终端熟悉了吗? 1.没有仔细研究上一篇文章? 拿上看看这几个命令:ls.cd.cp.mv.rm.mkdir.touch.cat.less.恩,暂时这些够用了! 什么?你连虚拟机也没装! 感谢 ...
FTP数字代码的意义
110 重新启动标记应答.120 服务在多久时间内ready.125 数据链路端口开启,准备传送.150 文件状态正常,开启数据连接端口.200 命令执行成功.202 命令执行失败.211 系统状态或 ...

python任意编码转utf8或者unicode

python任意编码转utf8或者unicode的更多相关文章

随机推荐

热门专题