python处理编码问题和JSON格式

从文件读出数据：默认utf8编码

json.dumps()输出数据：默认unicode编码

json读取（json是种通用的数据传输格式）

import ujson as json #for performance

jobj = json.loads(json_str) #type(jobj)==<type ‘dict’>

json_str = json.dumps(jobj) #默认输出unicode

json.dumps(jobj, ensure_ascii=False) #输出utf8格式

字符串做key：

>>> s={}

>>> s[1]=((2,3))

>>> json.dumps(s)

'{"1":[2,3]}’

log，redis，mc_cache，hbase存储都建议使用json格式

python -mjson.tool #json排版显示

ultra json不支持python中long类型：

>>> import json, ujson

>>> json.dumps(18446744073709551616L)

'18446744073709551616'

>>> ujson.dumps(18446744073709551616L)

Traceback (most recent call last):

File "<stdin>", line 1, in <module>

OverflowError: long too big to convert

json.dumps输出的字符串手动粘贴置为常量，需要字符串转义，vim操作是s/"/\\"/g

简单介绍：

http://www.ruanyifeng.com/blog/2009/05/data_types_and_json.html

json格式：

http://www.json.org/json-zh.html

http://www.jsoneditoronline.org/

中文编码

def to_utf8(s):

return s if isinstance(s, str) else s.encode('utf8')

def to_unicode(s):

return s if isinstance(s, unicode) else s.decode('utf8')

中文unicode不能写文件

空格转utf8后无法用strip()去除

>>> s=u' 有的时候，之所以哭泣，并不是因为软弱，而是因为坚强太久。@_@search_tab'

>>> t=u'有的时候，之所以哭泣，并不是因为软弱，而是因为坚强太久。@_@search_tab'

>>> s

u'\xa0\u6709\u7684\u65f6\u5019\uff0c\u4e4b\u6240\u4ee5\u54ed\u6ce3\uff0c\u5e76\u4e0d\u662f\u56e0\u4e3a\u8f6f\u5f31\uff0c\u800c\u662f\u56e0\u4e3a\u575a\u5f3a\u592a\u4e45\u3002@_@search_tab'

>>> t

u'\u6709\u7684\u65f6\u5019\uff0c\u4e4b\u6240\u4ee5\u54ed\u6ce3\uff0c\u5e76\u4e0d\u662f\u56e0\u4e3a\u8f6f\u5f31\uff0c\u800c\u662f\u56e0\u4e3a\u575a\u5f3a\u592a\u4e45\u3002@_@search_tab'

>>> s.strip()

u'\u6709\u7684\u65f6\u5019\uff0c\u4e4b\u6240\u4ee5\u54ed\u6ce3\uff0c\u5e76\u4e0d\u662f\u56e0\u4e3a\u8f6f\u5f31\uff0c\u800c\u662f\u56e0\u4e3a\u575a\u5f3a\u592a\u4e45\u3002@_@search_tab'

>>> t.strip()

u'\u6709\u7684\u65f6\u5019\uff0c\u4e4b\u6240\u4ee5\u54ed\u6ce3\uff0c\u5e76\u4e0d\u662f\u56e0\u4e3a\u8f6f\u5f31\uff0c\u800c\u662f\u56e0\u4e3a\u575a\u5f3a\u592a\u4e45\u3002@_@search_tab'

>>> s.encode('utf8')

'\xc2\xa0\xe6\x9c\x89\xe7\x9a\x84\xe6\x97\xb6\xe5\x80\x99\xef\xbc\x8c\xe4\xb9\x8b\xe6\x89\x80\xe4\xbb\xa5\xe5\x93\xad\xe6\xb3\xa3\xef\xbc\x8c\xe5\xb9\xb6\xe4\xb8\x8d\xe6\x98\xaf\xe5\x9b\xa0\xe4\xb8\xba\xe8\xbd\xaf\xe5\xbc\xb1\xef\xbc\x8c\xe8\x80\x8c\xe6\x98\xaf\xe5\x9b\xa0\xe4\xb8\xba\xe5\x9d\x9a\xe5\xbc\xba\xe5\xa4\xaa\xe4\xb9\x85\xe3\x80\x82@_@search_tab'

>>> t.encode('utf8')

'\xe6\x9c\x89\xe7\x9a\x84\xe6\x97\xb6\xe5\x80\x99\xef\xbc\x8c\xe4\xb9\x8b\xe6\x89\x80\xe4\xbb\xa5\xe5\x93\xad\xe6\xb3\xa3\xef\xbc\x8c\xe5\xb9\xb6\xe4\xb8\x8d\xe6\x98\xaf\xe5\x9b\xa0\xe4\xb8\xba\xe8\xbd\xaf\xe5\xbc\xb1\xef\xbc\x8c\xe8\x80\x8c\xe6\x98\xaf\xe5\x9b\xa0\xe4\xb8\xba\xe5\x9d\x9a\xe5\xbc\xba\xe5\xa4\xaa\xe4\xb9\x85\xe3\x80\x82@_@search_tab'

>>> s.encode('utf8').strip()

>>> t.encode('utf8').strip()

参考：也谈 Python 的中文编码处理

http://in355hz.iteye.com/blog/1860787

python处理编码问题和JSON格式的更多相关文章

python判断字符串是否是json格式方法分享
python判断字符串是否是json格式方法分享在实际工作中,有时候需要对判断字符串是否为合法的json格式解决方法使用json.loads,这样更加符合'Pythonic'写法代码示例: ...
python 使用eval() 可以将json格式的数据,转换为原始数据
使用python 自带的函数可以将json 格式的数据(也就是字符串)转换为原始格式的数据, 当使用json.loads()无法将json格式的数据转换为原始数据(存在多层各种格式类型数据的嵌套), ...
Python mysql表数据和json格式的相互转换
功能: 1.Python 脚本将mysql表数据转换成json格式 2.Python 脚本将json数据转成SQL插入数据库表数据: SQL查询:SELECT id,NAME,LOCAL,mobil ...
Python：numpy数组转换为json格式
在python中,如何将一个numpy数组转换为json格式? 这是最近遇到的一个问题,做个笔记. 假设arr为numpy数组,将其转换为json格式: 总体思想是①首先转换为python的list, ...
python requests方法post请求json格式处理
方法如下: import requestsimport json data = { 'a': 123, 'b': 456} ## headers中添加上content-type这个参数,指 ...
python读取excel数据为json格式(兼容xls\xlsx)
做自动化时需要从excel读取数据: 本文实现将excel文件数据读取为json格式,方便自动化调用读取xls文件使用xlrd读取xls文件代码: import xlrd def read_xls ...
python json.dumps()函数输出json格式，使用indent参数对json数据格式化输出
在python中,要输出json格式,需要对json数据进行编码,要用到函数:json.dumps json.dumps() :是对数据进行编码 #coding=gbkimport json dict ...
python 把数据 json格式输出
有个要求需要在python的标准输出时候显示json格式数据,如果缩进显示查看数据效果会很好,这里使用json的包会有很多操作 import json date = {u'versions': [{u ...
Python将JSON格式数据转换为SQL语句以便导入MySQL数据库
前文中我们把网络爬虫爬取的数据保存为JSON格式,但为了能够更方便地处理数据.我们希望把这些数据导入到MySQL数据库中.phpMyadmin能够把MySQL数据库中的数据导出为JSON格式文件,但却 ...

随机推荐

初识Servlet(JSP)
Java Servlet 是运行在 Web 服务器或应用服务器上的程序,它是作为来自 Web 浏览器或其他 HTTP 客户端的请求和 HTTP 服务器上的数据库或应用程序之间的中间层. Servle ...
国外物联网平台（3）：IBM Watson IoT
国外物联网平台(3)——IBM Watson IoT 马智平台定位提供全面管理的云托管服务,旨在简化并从 IoT 设备中获得价值. Watson IoT Platform 提供对 IoT 设备和数 ...
关于文本PDG的字体
作者:马健邮箱:stronghorse_mj@hotmail.com发布:2008.08.03 有不少人在问为什么有些文本PDG在SSREADER里看到的是宋体,在Acobat里看到的是黑体,其实原因 ...
VMWare虚拟机无法打开内核设备"\\.\Global\vmx86"的解决方法
cmd执行: 1.net start vmci 2.net start vmx86 3.net start VMnetuserif
关于redis-windows环境下的一些配置：
如果报错: The Windows version of Redis allocates a memory mapped heap for sharing with the forked proces ...
动态横向(水平)合并Repeater数据行DataItem的列
Insus.NET有对GridView控件进行横纵分别合并列:横:<动态横向(水平)合并GridView数据行DataRow的列>http://www.cnblogs.com/insus/ ...
html颜色设定 - 网址不见了看这里
linux内核中的##__VA_ARGS__有什么作用?
答: 1.__VA_ARGS__是一个可变参数宏: 2. 当可变参数的个数为0时,这里的##起到把前面多余的","去掉的作用,否则会编译出错: 3. 示例 3.1 #defin ...
利用zookeeper生成唯一id,通用性代码
在上篇中是写死的,这章就写出通用的 package com.cxy.com.cxy.curator; import java.util.concurrent.ExecutorService; impo ...
Liunx php函数 smtp 发送邮件
1. 查看防火墙是否开放端口默认smtp 25 iptables -L -n 如果没有,添加25端口 iptables -A INPUT -p tcp --dport 25 -j ACCEPT ip ...

python处理编码问题和JSON格式

python处理编码问题和JSON格式的更多相关文章

随机推荐

热门专题