在url中使用中文其实是一个坏习惯,会带来一系列的转码问题, 我更喜欢英文译名或者id来标识某个uri。但是现实往往是残酷的, 特别是在我们调用别人服务时候,有时候被逼无奈使用中文URL。
Python中unicode转码一向是让人头疼的问题。数次碰壁之后,我也摸出了一些门道, 研读完Python字符串的encode与decode 之后,就自认为找到了万金油,谁知道这次又碰上这个老冤家。
01 |
Traceback (most recent call last): |
02 |
File "<stdin>" , line 1 , in <module> |
03 |
File "/usr/lib/python2.6/urllib2.py" , line 126 , in urlopen |
04 |
return _opener. open (url, data, timeout) |
05 |
File "/usr/lib/python2.6/urllib2.py" , line 391 , in open |
06 |
response = self ._open(req, data) |
07 |
File "/usr/lib/python2.6/urllib2.py" , line 409 , in _open |
09 |
File "/usr/lib/python2.6/urllib2.py" , line 369 , in _call_chain |
11 |
File "/usr/lib/python2.6/urllib2.py" , line 1170 , in http_open |
12 |
return self .do_open(httplib.HTTPConnection, req) |
13 |
File "/usr/lib/python2.6/urllib2.py" , line 1142 , in do_open |
14 |
h.request(req.get_method(), req.get_selector(), req.data, headers) |
15 |
File "/usr/lib/python2.6/httplib.py" , line 914 , in request |
16 |
self ._send_request(method, url, body, headers) |
17 |
File "/usr/lib/python2.6/httplib.py" , line 951 , in _send_request |
19 |
File "/usr/lib/python2.6/httplib.py" , line 908 , in endheaders |
21 |
File "/usr/lib/python2.6/httplib.py" , line 780 , in _send_output |
23 |
File "/usr/lib/python2.6/httplib.py" , line 759 , in send |
24 |
self .sock.sendall( str ) |
25 |
File "<string>" , line 1 , in sendall |
26 |
UnicodeEncodeError: 'ascii' codec can't encode characters in position 7 - 8 : ordinal not in range ( 128 ) |
这次错误引发是在 urlopen() 引起的,很有特色,开始使用 url.encode('utf-8') 就可以解决了。 今天我做了一些测试。
1. ascii + unicode 测试
03 |
Traceback (most recent call last): |
04 |
File "<stdin>" , line 1 , in <module> |
05 |
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0 : ordinal not in range ( 128 ) |
09 |
Traceback (most recent call last): |
10 |
File "<stdin>" , line 1 , in <module> |
11 |
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0 : ordinal not in range ( 128 ) |
上面的测试说明ascii码和unicode码相连操作,结论是有中文记得带上u,就不会有问题。 Python默认解码器是ascii,无法解码unicode中的中文。
2. urllib2的测试
03 |
>>> urllib2.urlopen(h1) |
04 |
<addinfourl at 153439532 whose fp = <socket._fileobject object at 0xb74e51ac >> |
06 |
>>> urllib2.urlopen(h2) |
07 |
<addinfourl at 153440236 whose fp = <socket._fileobject object at 0x925912c >> |
09 |
>>> urllib2.urlopen(h3) |
10 |
<addinfourl at 153482348 whose fp = <socket._fileobject object at 0x92593ac >> |
12 |
>>> urllib2.urlopen(h4) |
13 |
Traceback (most recent call last): |
14 |
File "<stdin>" , line 1 , in <module> |
15 |
File "/usr/lib/python2.6/urllib2.py" , line 126 , in urlopen |
16 |
return _opener. open (url, data, timeout) |
17 |
File "/usr/lib/python2.6/urllib2.py" , line 391 , in open |
18 |
response = self ._open(req, data) |
19 |
File "/usr/lib/python2.6/urllib2.py" , line 409 , in _open |
21 |
File "/usr/lib/python2.6/urllib2.py" , line 369 , in _call_chain |
23 |
File "/usr/lib/python2.6/urllib2.py" , line 1170 , in http_open |
24 |
return self .do_open(httplib.HTTPConnection, req) |
25 |
File "/usr/lib/python2.6/urllib2.py" , line 1142 , in do_open |
26 |
h.request(req.get_method(), req.get_selector(), req.data, headers) |
27 |
File "/usr/lib/python2.6/httplib.py" , line 914 , in request |
28 |
self ._send_request(method, url, body, headers) |
29 |
File "/usr/lib/python2.6/httplib.py" , line 951 , in _send_request |
31 |
File "/usr/lib/python2.6/httplib.py" , line 908 , in endheaders |
33 |
File "/usr/lib/python2.6/httplib.py" , line 780 , in _send_output |
35 |
File "/usr/lib/python2.6/httplib.py" , line 759 , in send |
36 |
self .sock.sendall( str ) |
37 |
File "<string>" , line 1 , in sendall |
38 |
UnicodeEncodeError: 'ascii' codec can't encode characters in position 7 - 8 : ordinal not in range ( 128 ) |
这个测试说明, urllib2.urlopen() 可以接受ascii/unicode的英文,也可以接受ascii的中文, 但是一旦是unicode的中文url,就会报转码错误。
so,请尽量英文url,非要用中文,请记得转码。
- Tomcat 中get请求中含有中文字符时乱码的处理
Tomcat 中get请求中含有中文字符时乱码的处理
- url中传递中文参数时的转码与解码
URL传递中文参数时的几种处理方式,总结如下: 1.将字符串转码:newString(“xxxxx”.getBytes("iso-8859-1"),"utf-8" ...
- Java中读取txt文件中中文字符时,出现乱码的解决办法
这是我写的一个Java课程作业时,遇到的问题. 问题描述: 我要实现的就是将txt文件中的内容按一定格式读取出来后,存放在相应的数组. 我刚开始运行时发现,英文可以实现,但是中文字符就是各种乱码. 最 ...
- python匹配某个中文字符
python2.7对中文的支持不好是众所周知的,现在遇到这样一个需求,要匹配某个中文字符.查了一个资料,思路就是转化为unicode进行比较,记录如下: line = '参考答案: A' # gbk ...
- 【python】-- 字符串、字符编码与转码
字符串 字符串是 Python 中最常用的数据类型.我们可以使用引号('或")来创建字符串. 创建字符串很简单,只要为变量分配一个值即可:访问子字符串,可以使用方括号来截取字符串: var1 ...
- Python开发技术详解(视频+源码+文档)
Python, 是一种面向对象.直译式计算机程序设计语言.Python语法简捷而清晰,具有丰富和强大的类库.它常被昵称为胶水语言,它能够很轻松的把用其他语言制作的各种模块(尤其是C/C++)轻松地联结 ...
- ctrl c 中文字符到 vnc 里,中文字符已经被转码
为了测试程序对多语言字符的支持情况,我找来一段中文和北欧的文字,希望把这些文字上传到elasticsearch,并能正确显示. 首先测试了北欧文字,一切OK. 但是中文复制到 VNC 客户端(Linu ...
- 小白的Python之路 day2 字符编码和转码
字符编码和转码 详细文章: http://www.cnblogs.com/yuanchenqi/articles/5956943.html http://www.diveintopython3.net ...
- python开发基础之字符编码、文件处理和函数基础
字符编码 为什么要有字符编码? 字符编码是为了让计算机能识别我们人写的字符,因为计算机只认识高低电平,也就是二进制数"0","1". 一个文件用什么编码方式存储 ...
随机推荐
- Qt 多线程使用moveToThread
Qt有两种多线程的方法,其中一种是继承QThread的run函数,另外一种是把一个继承于QObject的类用moveToThread函数转移到一个Thread里. Qt4.8之前都是使用继承QThre ...
- Newnode's NOI(P?)模拟赛 第三题 (主席树优化建图 + tarjan)
题目/题解戳这里 这道题题目保证a,b,ca,b,ca,b,c各是一个排列-mdzz考场上想到正解但是没看到是排列,相等的情况想了半天-然后写了暴力60分走人- 由于两两间关系一定,那么就是一个竞赛图 ...
- 2019CCPC秦皇岛(重现赛)-D
链接: http://acm.hdu.edu.cn/contests/contest_showproblem.php?pid=1004&cid=872 题意: 给定一个正整数 n,要求判断 1 ...
- hdu 6078 Wavel Sequence
题 OvO http://acm.hdu.edu.cn/showproblem.php?pid=6078 (2017 Multi-University Training Contest - Team ...
- 配置Multipath多路径环境
iscsi服务器 eth0:192.168.4.5/24 eth1:192.168.2.5/24 iscsi客户端 eth0:192.168.4.100/24 eth3:201 ...
- iPhone/iPad调整事件递交
UIKit 为应用程序提供了编程手段来简化事件处理或者完全关闭事件流.下面的列表总结了这些方法: 关闭触摸事件的递交. 缺省情况下,视图接收触摸事件,但是你可以设置它的userInteractionE ...
- HTTP中GET与POST的区别颠覆式的理解
关于http中的get和post你轻轻松松的给出了一个“标准答案”: GET在浏览器回退时是无害的,而POST会再次提交请求. GET产生的URL地址可以被Bookmark,而POST不可以. GET ...
- ajax-php跨域请求
php: function __construct(){ // 指定允许其他域名访问 header("Access-Control-Allow-Origin: *"); heade ...
- python全栈开发第7天 nginx服务器和nfs的搭建及组成集群的方法
作业一:nginx服务 二进制安装nginx包 1.使用命令:yum install epel-release -y ,来安装epel,安装成功如下图:(因为我用32位的centos7老是出现各种各样 ...
- js获取当前时间,并格式化为"yyyy-MM-dd HH:mm:ss"
/** * Created by Administrator on 2019/11/15. *指尖敲打着世界 ----一个阳光而又不失帅气的少年!!!. */ // js获取当前时间,并格式化为&qu ...