python字符集的转换（mysql数据乱码的处理）

本文参考：http://blog.csdn.net/crazyhacking/article/details/39375535

chardet模块：http://blog.csdn.net/tianzhu123/article/details/8187470

字符集转换部分：http://blog.chinaunix.net/uid-26249349-id-2846894.html

python 转码 mysql 字符集

两个msyql库，字符集均为gbk，需要从A库中取数据，插入到B库中，其中某些字段值为中文。

代码

#!/usr/bin/env python

# _*_ encoding:utf- _*_

'''

author: tiantiandas

 '''

import sys

reload(sys)

sys.setdefaultencoding('gbk')

import MySQLdb

def Connect_Mysql(sql,host):

     db_info = {'host': host,

                'user': 'test',

                'db': 'TestDB',

                'passwd': 'dnstest',

                'charset':'gbk'} #很关键

     try:

         connect = MySQLdb.connect(**db_info)

         cursor = connect.cursor()

         cursor.execute(sql)

         connect.commit()

         result = cursor.fetchone()

         return result

     except Exception as e:

         print e

         sys.exit()

 def main():

     domain = sys.argv[]

     query = 'select Name,AdminDesc from EmailBox where Domain="{0}"'.format(domain)

     try:

         Name, AdminDesc = Connect_Mysql(sql=query,host="host1")

         update = "update  EmailBox set Name='{0}',AdminDesc='{1} where Domain='{2}'".format(Name,AdminDesc)

         try:

             print update

             Connect_Mysql(sql=update,host='host2')

         except Exception as e:

             print e

     except Exception as e:

         print e

if __name__ == '__main__':

     main()

关键点

sys.setdefaultencoding('gbk') ：这段代码让从A库拉出的数据，python会将其解码为成gbk。（大概是这个意思）

mysql编码： charset:gbk ：这个调整让写入到库中的数据字符集为gbk

所以如果拉出的数据是为了自己看的时候，就不需要 sys.setdefaultencoding('gbk')这段代码了。

chardet 模块

chardet是字符编码识别的模块，使用如下：

#!/usr/bin/env python

# _*_ encoding:utf- _*_

import chardet

a="天天"

print chardet.detect(a)

结果：

{'confidence': 0.75249999999999995, 'encoding': 'utf-8'}

如果要对一个大文件进行编码识别，如下的方法，可以提高识别速度：（相比第一种，这种确实会快一些）

import urllib

from chardet.universaldetector import UniversalDetector

usock = urllib.urlopen('http://www.baidu.com/')

#创建一个检测对象

detector = UniversalDetector()

for line in usock.readlines():

    #分块进行测试，直到达到阈值

    detector.feed(line)

    if detector.done: break

#关闭检测对象

detector.close()

usock.close()

#输出检测结果

print detector.result

运行结果：

{'confidence': 0.99, 'encoding': 'GB2312'}

有了chardet模块，就可以识别获取数据的字符集格式，之后就可以将数据转换为想要的字符集格式了。

字符集格式转换

两个函数

decode：可以将数据解码为想要的字符集格式

encode：可以将数据编码为想要的字符集格式

python识别的是unicode，所以是用decode现将数据转换为unicode，之后再用encode将数据转换为想要的字符集。

测试代码

>>> name="天天"

>>> name

'\xe5\xa4\xa9\xe5\xa4\xa9'  #天天 汉字的gbk码

>>> b=name.decode('gbk')

>>> b

u'\u6fb6\u2541\u3049'

>>> c=b.encode('utf8')

>>> c

'\xe6\xbe\xb6\xe2\x95\x81\xe3\x81\x89'

——————————————————————————

>>> '\xcc\xec\xcc\xec'.decode('gbk')

u'\u5929\u5929'

>>> '\xcc\xec\xcc\xec'.decode('gbk').encode('utf8')

'\xe5\xa4\xa9\xe5\xa4\xa9'

>>> '天天'

'\xe5\xa4\xa9\xe5\xa4\xa9'

python字符集的转换（mysql数据乱码的处理）的更多相关文章

python 基础 9.3 mysql 数据操作
#/usr/bin/python #coding=utf-8 #@Time :2017/11/21 0:20 #@Auther :liuzhenchuan #@File :mysql 数据操作 ...
linux下插入的mysql数据乱码问题及第三方工具显示乱码问题
一.lampp环境下的数据库乱码问题问题描述: 在做mysql练习的时候发现新创建的数据库中插入数据表中的记录中文出现乱码的问题,如下图: 经过多方查证,整里如下文挡: 前提: 我自己的环境是使用的 ...
Python之pandas读取mysql中文乱码问题
# -*- coding: utf-8 -*- # author:baoshan import pandas as pd import pymysql config = { "host&qu ...
mysql数据乱码
更改数据库安装时的字符编码.打开mysql安装目录,找到my.ini文件,通过使用记事本的方式打开,将这里面的default-character-set=latin1修改成gbk,注意这里面有两处需要 ...
python多进程并发插入mysql数据
import pymysql import traceback from multiprocessing import Pool,Manager,cpu_count from multiprocess ...
python使用requests请求的数据乱码
1.首先进入目标网站,浏览器查看源码,找到head标签下面的meta标签,一般meta标签不止一个,我们只需找到charset属性里面的值即可 2.requests请求成功时,设置它的编码,代码如下 ...
Python操作数据库之 MySQL
Python操作数据库之MySQL 一.安装Python-MySQLdb模块 Python-MySQLdb是一个操作数据库的模块,Python 通过它对 mysql 数据实现各种操作. 如果要源码安装 ...
记录PHP post提交表单导入mysql中文乱码的问题
记录记录PHP post提交表单导入mysql中文乱码的问题关于乱码,这是个糟糕的问题!涉及到很多地方解决思路:程序所涉及的环境字符集不一致导致 mysql出现乱码一般是mysql数据库内部的字符 ...
完美转换MySQL的字符集 Mysql 数据的导入导出，Mysql 4.1导入到4.0
MySQL从4.1版本开始才提出字符集的概念,所以对于MySQL4.0及其以下的版本,他们的字符集都是Latin1的,所以有时候需要对mysql的字符集进行一下转换,MySQL版本的升级.降级,特别是 ...

随机推荐

小白的Python之路 day1
Python之路,Day1 - Python基础1 本节内容 Python介绍发展史 Python 2 or 3? 一. Python介绍 python的创始人为吉多·范罗苏姆(Guido van ...
oracle 恢复数据到某个时间点
delete from tablename;insert into tablename select * from tablename as of timestamp to_timestamp('20 ...
迭代加深搜索POJ 3134 Power Calculus
题意:输入正整数n(1<=n<=1000),问最少需要几次乘除法可以从x得到x的n次方,计算过程中x的指数要求是正的. 题解:这道题,他的结果是由1经过n次加减得到的,所以最先想到的就是暴 ...
为开源社区尽一份力，翻译RocketMQ官方文档
正如在上一篇文章中写道:"据我所知,现在RocketMQ还没有中文文档.我打算自己试着在github上开一个项目,自行翻译."我这几天抽空翻译了文档的前3个小节,发现翻译真的不是一 ...
JAVA-----基于POI实现对Excel导入
在日常项目开发中, 数据录入和导出是十分普遍的需求,因此,导入导出也成为了开发中一个经典的功能.数据导出的格式一般是excel或者pdf,而批量导入的信息一般是借助excel来减轻工作量,提高效率. ...
深入理解Java内存模型——volatile
volatile的特性当我们声明共享变量为volatile后,对这个变量的读/写将会非常特别. 理解volatile特性的一个好方法是:把对volatile变量的单个读/写,看成是使用同一个监视器锁 ...
android checkbox 未选中状态已选中状态替换成自己的图片
效果图: 未选中状态: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQv/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA ...
libmemcached的安装及測试
1.安装memcached ~$ wget http://memcached.googlecode.com/files/memcached-1.2.8.tar.gz. $ tar xvzf lmemc ...
基于.NET的弹性及瞬间错误处理库Polly
本文基本是官方说明的翻译和总结(https://github.com/App-vNext/Polly) 什么是Polly? Polly是一款基于.NET的弹性及瞬间错误处理库, 它允许开发人员以顺畅及 ...
java 正则学习
前言在网上找了许多关于正则解析 URL,结果不是很满意,所以自己学习正则: java url 那么解析 url 的代码如下: import java.util.regex.Matcher; impo ...