python列表中中文编码的问题

在python2列表中，有时候，想打印一个列表，会出现如下显示：

这个是由于：

print一个对象，是输出其“为了给人（最终用户）阅读”而设计的输出形式，那么字符串中的转义字符需要转出来，而且也不要带标识字符串边界的引号。

因此，单独打印列表中的某一项，譬如：list[0]，他可以很好的转义出中文字符。而一个list对象，本身就是个数据结构，如果要把它显示给最终用户看，它不会对里面的数据进行润色。

解决办法参考：https://www.zhihu.com/question/20413029

由此进一步思考：

1、我们在定义字符串的时候，u"中文"的u是什么意思？

string = u"中文"

string.decode('utf8')

　　可以看到会出异常：

---------------------------------------------------------------------------

UnicodeEncodeError                        Traceback (most recent call last)

<ipython-input-41-b3abdaf47d60> in <module>()

      1 string = u"中文"

----> 2 string.decode('utf8')

C:\ProgramData\Anaconda2\lib\encodings\utf_8.pyc in decode(input, errors)

     14

     15 def decode(input, errors='strict'):

---> 16     return codecs.utf_8_decode(input, errors, True)

     17

     18 class IncrementalEncoder(codecs.IncrementalEncoder):

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

　　这说明，string的编码方式并不是utf-8。

我之前一直以为是指的是utf-8的编码方式，其实不然。

2、# -*- coding: utf-8 -*- 和 sys.setdefaultencoding("utf-8")的区别是什么？

# -*- coding: utf-8 -*- ：作用于源代码，如果没有定义，源码不能包含中文字符。https://www.python.org/dev/peps/pep-0263/

sys.setdefaultencoding("utf-8") ：设置默认的string编码方式

3、decode\encode指定编码解码方式

# -*- coding: utf-8 -*-

import sys

#Python2.5 初始化后删除了 sys.setdefaultencoding 方法，我们需要重新载入

reload(sys)

sys.setdefaultencoding('utf-8') 

string = "中文"

print repr(string.decode('utf-8'))

4、unicode编码

字符串通常包含str、unicode两种类型，通常str指字符串编码方式。在Python程序内部，通常使用的字符串为unicode编码，这样的字符串字符是一种内存编码格式，如果将这些数据存储到文件或是记录日志的时候，就需要将unicode编码的字符串转换为特定字符集的存储编码格式，比如：UTF-8、GBK等。

unicode编码：编码表的编号从0一直算到了100多万（三个字节）。每一个区间都对应着一种语言的编码。目前几乎收纳了全世界大部分的字符。所有的字符都有唯一的编号，事实上是一种字符集。但是，unicode把大家都归纳进来，却没有为编码的二进制传输和二进制解码做出规定。于是，就出现了如下解决方案：uft-8，utf-16，utf-32这些编码方案，主要还是为了解决一个信息传输效率的问题，因为如果直接根据字符集进行传输的话，三个字节的表示就会比较低效了。

str 转 unicode

string = "asdf"

string.decode("utf-8")

所以，u就是unicode

unicode转 str

string = u"asdf"

string.encode("utf-8")

5、unicode-escape

在将unicode存储到文本的过程中，还有一种存储方式，不需要将unicode转换为实际的文本存储字符集，而是将unicode的内存编码值进行存储，读取文件的时候再反向转换回来，是采用：unicode-escape的转换方式。

unicode到unicode-escape

string = "中文"  #  或 u"中文"，不影响，因为最终都是unicode的内存编码

string.encode("unicode-escape")

unicode-escape到unicode

string = "中文"

string.decode("unicode-escape")

　　>> u'\xe4\xb8\xad\xe6\x96\x87

6、string-escape

对于utf-8编码的字符串，在存储的时候，通常是直接存储，而实际上也还有一种存储utf-8编码值的方法，即：string-escape。

str(utf8)到string-escape

string = "中文"

string.encode("string-escape")

　　>> '\\xe4\\xb8\\xad\\xe6\\x96\\x87'

string-escape到str(utf8)

string = "中文"

string.decode("string-escape")

　　>>'\xe4\xb8\xad\xe6\x96\x87'

//-------------由上，进一步分析：

a = "中文"

print repr(a.decode("utf-8"))

a = "中文"

print repr(a.decode("unicode-escape"))

print repr(u"中文")

print repr(a)

可以看到，从str转unicode和从unicode-escape转unicode的差距。再比如：

string = '\u4e2d\u6587'

print repr(string.decode("unicode-escape"))

print repr(string.decode("utf8"))

更为清楚的看到，从unicode-escape转unicode，两者没有文本转化的过程，是一个内存转化的过程。而通过str转unicode，会有文本转化，譬如对转义字符的操作。

对于列表中中文编码的解释：

arr = [u"中文"]

print arr

print repr(arr)

pp =  str(arr).decode("unicode-escape")#

print pp

print repr(pp)

tt = str(arr).decode("utf-8")

print tt

print repr(tt)

　　>>[u'\u4e2d\u6587']

>>[u'中文']

>>u"[u'\u4e2d\u6587']"

>>[u'\u4e2d\u6587']

>>u"[u'\\u4e2d\\u6587']"

由此可见，想要打印list中的中文，思路是：

通过字符串化处理，将list转化为str（utf-8）文本编码的方式，同时要保留list里面的unicode，避免通过字符处理导致的转义操作，破坏掉中文的unicode，因此选择了unicode-escape

python列表中中文编码的问题的更多相关文章

如何在python列表中查找某个元素的索引
如何在python列表中查找某个元素的索引 2019-03-15 百度上回复别人的问题,几种方式的回答: 1) print('*'*15,'想找出里面有重复数据的索引值','*'*15) listA ...
python 列表中[ ]中冒号‘：’的作用
中括号[ ]:用于定义列表或引用列表.数组.字符串及元组中元素位置 list1 = [, ] list2 = [, , , , , , ] print ] print :] 冒号: 用于定义分片. ...
python列表中的pop函数
再python的列表中,有许多的内置方法,而在这里我主要向大家介绍一下pop函数. pop函数主要是用于删除列表中的数据.而其删除值时会返回删除的值.如果没有参数传入时, 则会默认认为删除列表的最后一 ...
Python列表中的字典按照该字典下的键值进行排序
列表中的字典按照该字典下的键值进行排序这算是排序中比较复杂的一种情况吧,多重嵌套,按照某种规则进行排序.如下面这个json(注:这里这是该列表中的一个项): [ { "stat" ...
python列表中，多次追加元素
在列表中追加元素,可以使用append(),列表相加也可以用extend()函数,多次追加元素可以用“+”实现 l=[1,2,3,4,5] x=6 y=7 z=8 l=l+[x]+[y]+[z] pr ...
在python列表中删除所有空元素
今天在测试数据的时候偶然发现一个问题,如下: test = ['a','','b','','c','',''] for i in test: if i == '': test.remove(i) pr ...
python 列表中字符串排序故事一则
a = ["bca","cab","abc"] 有时候需要对列表排序如果是对列表中整个元素直接用sort()排序如果想按元素的某一段排 ...
python列表中的深浅copy
列表中的赋值和平常的赋值是不一样的,看下面的代码: In [1]: a = 1 In [2]: b = a In [3]: a Out[3]: 1 In [4]: b Out[4]: 1 In [5] ...
Python列表中去重的多种方法
怎么快速的对列表进行去重呢,去重之后原来的顺序会不会改变呢? 去重之后顺序会改变 set去重列表去重改变原列表的顺序了 l1 = [1,4,4,2,3,4,5,6,1] l2 = list(set( ...

随机推荐

HDU 1715 大斐波数加法高精度
解题报告:求斐波那契数,不过这题的n的范围是1000,肯定是早就超过了的,所以要用到高精度,所以这题其实就是一个加法高精度的题. 我的做法是写一个大数相加的函数,然后打表就是了,这里注意的就是每次 ...
【CC2530强化实训03】定时器间隔定时实现按键长按与短按
[CC2530强化实训03]定时器间隔定时实现按键长按与短按 [题目要求] 虽然用普通的延时函数能够实现按键长按与短按的判别,但是在实际的工程应用和项目开发中并不好用也不灵活.更多得是借助定时器的间隔 ...
sklearn_PCA主成分降维
# coding:utf-8 import pandas as pd import numpy as np from pandas import Series,DataFramefrom sklear ...
oracle02--多表关联查询
1. 多表(关联)查询多表查询也称之为关联查询.多表关联查询等,主要是指通过多个表的关联来获取数据的一种方式. 1.1. 多表映射关系一对多:A表的一行数据,对应B表中的多条.如:一个部门可以对应 ...
c++ ACM常用函数
1 保留小数点后两位 #include <iomanip> cout << setiosflags(ios::fixed) << setprecision(2)&l ...
Linux USB驱动学习总结（一）---- USB基本概念及驱动架构
USB,Universal Serial Bus(通用串行总线),是一个外部总线标准,用于规范电脑与外部设备的连接和通讯.是应用在PC领域的接口技术.USB接口支持设备的即插即用和热插拔功能.USB是 ...
linux limits研究
---------------------------------------------------------------------------------------------------- ...
[shell]shell中if语句的使用
转自:http://lovelace.blog.51cto.com/1028430/1211353 bash中如何实现条件判断?条件测试类型: 整数测试字符测试文件测试一.条件 ...
Oracle 函数 “自动生成订单号”
create or replace function get_request_code return varchar2 AS --函数的作用:自动生成订单号 v_mca_no mcode_apply_ ...
select into的缺点
当使用到select * into 表A from 表 B时可以复制表的结构和数据,但是千万不要忘了给新表A添加主键和索引, 因为在使用select into 时不会复制索引和主键,因此,当我 ...

python列表中中文编码的问题

python列表中中文编码的问题的更多相关文章

随机推荐

热门专题