python 处理中文遇到的编码问题总结以及字符str的编码如何判断

如何处理中午编码的问题 Python的UnicodeDecodeError: 'utf8' codec can't decode byte 0xxx in position 这个错误是因为你代码中的某个字符串使用了费ascii编码的字符,也就是它代表的16进制的编码超过127. 解决这个问题可以使用下面的方法解决,其实就是设置默认的编码.python 2.x的默认编码是ascii,如果改为utf-8,就可以了. import sys reload( sys ) sys.setdefaultenc…

python 处理中文文件时的编码问题，尤其是utf-8和gbk

python代码文件的编码 py文件默认是ASCII编码,中文在显示时会做一个ASCII到系统默认编码的转换,这时就会出错:SyntaxError: Non-ASCII character.需要在代码文件的第一行或第二行添加编码指示: # coding=utf-8 ##以utf-8编码储存中文字符 print '中文'像上面那样直接输入的字符串是按照代码文件的编码来处理的,如果用unicode编码,有以下2种方式: s1 = u'中文' #u表示用unicode编码方式储存信息 s2 = uni…

【转】python 字符编码与解码——unicode、str和中文：UnicodeDecodeError: 'ascii' codec can't decode

原文网址:http://blog.csdn.net/trochiluses/article/details/16825269 摘要:在进行python脚本的编写时,如果我们用python来处理网页数据或者进行与中文字符有关的处理工作,经常出现这样的出错信息:SyntaxError: Non-ASCII character '\xe6' in file ./filename.py on line 3, but no encoding declared.本文主要讲解python中与unicode和中…

python读取中文文件编码问题

python 读取中文文件后,作为参数使用,经常会遇到乱码或者报错asii错误等. 我们需要对中文进行decode('gbk') 如我有一个data.txt文件有如下内容: 百度谷歌现在想读取文件中内容构建查询语句代码如下: f=open('data.txt','r') for i in f.readlines(): data_line=i.strip() data=data_line.decode("gbk") print "this is %s"%data…

python处理中文(待补充)

字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的字符串解码(decode)成unicode,再从unicode编码(encode)成另一种编码. decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串str1转换成unicode编码. encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2…

python爬虫中文网页cmd打印出错问题解决

问题描述用python写爬虫,很多时候我们会先在cmd下先进行尝试. 运行爬虫之后,肯定的,我们想看看爬取的结果. 于是,我们print... 运气好的话,一切顺利.但这样的次数不多,更多地,我们会遇到这样的错误: UnicodeEncodeError: 'gbk' codec can't encode character 好吧,回去检查网页的编码格式:gb2312 代码中也添加了:r.encoding = 'gb2312' 看不出哪里出了问题,应该没问题的啊! 代码如下: import re…

python截取中文字符串

python的中文处理还是比较麻烦的,utf-8的字符串的长度是1-6个字符,一不小心就会从中截断,出现所谓的乱码.下面这个函数提供了,从一段utf-8编码的字符串中,截取固定长度的字串.ord(char)将字符转换称整数,根据utf-8的编码规则,确定每个utf-8的字占用几个字符,从而避免截断的情况.参数: string :utf-8字符串,如果是别的字符编码,请先转换成utf-8(推荐所有字符串和文件都用utf-8格式的) length :字符数(注意不是中文字的个数) 题外话:py…

【转】Python BeautifulSoup 中文乱码解决方法

这篇文章主要介绍了Python BeautifulSoup中文乱码问题的2种解决方法,需要的朋友可以参考下解决方法一: 使用python的BeautifulSoup来抓取网页然后输出网页标题,但是输出的总是乱码,找了好久找到解决办法,下面分享给大家首先是代码复制代码代码如下: 在刚开始测试的时候发现,虽然输出是乱码的,但是写在文件里面却是正常的.然后在网上找了找解决办法才发现 print一个对象的逻辑:内部是调用对象的__str__得到对应的字符串的,此处对应的是soup的__str__…

python全栈开发随笔 'is' 和 == 的比较知识与区别编码和解码的内容及转换

python 一. is 和 == 的区别; == 比较的是两边的值. a = 'alex' b = 'alex' print(a = b) #True a = 10 b = 10 print(a = b) # True a= [1,2,3] b= [1,2,3] print(a = b ) #True is 比较的是内存地址 id( ) a = 'alex' print(id(a)) # 36942544 内存地址 # n = 10 # print(id(n)) #140819…

python处理中文

python 清洗中文文件需要用到的两个链接: 1,unicode编码转换器 http://www.bangnishouji.com/tools/chtounicode.html 2,Python匹配中文的正则表达式 http://www.jb51.net/article/83975.htm # -*- coding:utf-8 -*- import re import os ''' python3.5 存在bug,清洗前先清理如下的链接: img src="//p3.pstatp.com/l…

python与中文的那点事

目录 python与中文的那点事 1. utf-8/gbk/unicode/ASCII 2.各种编码之间的转换 3. 统计字符串中数字,字母,汉字的个数 python与中文的那点事在学习python的过程中,发现在python2与python3中对中文的处理有所不同,所以这篇文章就来探讨一下这些不同 1. utf-8/gbk/unicode/ASCII 我们都知道,在计算机内部所有的信息都可以被表示成二进制的字符串,每一个二进制位有1和0两种状态,因此8位的二进制数可以表示256种状态,这…

python爬虫中文乱码解决方法

python爬虫中文乱码前几天用python来爬取全国行政区划编码的时候,遇到了中文乱码的问题,折腾了一会儿,才解决.现特记录一下,方便以后查看. 我是用python的requests和bs4库来实现爬虫,这两个库的简单用法可参照python爬取当当网的书籍信息并保存到csv文件乱码未处理前部分代码 url = '要爬取的网页' r = requests.get(url, timeout=30) soup = BeautifulSoup(r.text, 'lxml') 乱码原因我爬取的网页…

python全栈开发从入门到放弃之字符编码

一了解字符编码的知识储备 1. 计算机基础知识(三幅图) 2. 文本编辑器存取文件的原理(nodepad++,pycharm,word) 打开编辑器就打开了启动了一个进程,是在内存中的,所以在编辑器编写的内容也都是存放与内存中的,断电后数据丢失因而需要保存到硬盘上,点击保存按钮,就从内存中把数据刷到了硬盘上. 在这一点上,我们编写一个py文件(没有执行),跟编写其他文件没有任何区别,都只是在编写一堆字符而已. 3. python解释器执行py文件的原理 ,例如python…

【292】Python 关于中文字符串的操作

参考:什么是字符编码? 参考:Unicode 和 UTF-8 有何区别? 参考:python中文decode和encode转码一.相关说明 Python 中关于字符串的操作只限于英文字母,当进行中文字符的操作的时候就会报错,以下将相关操作方法进行展示. 写在前面:如何获得系统的默认编码 ? >>> import sys >>> print sys.getdefaultencoding() ascii 通过如下代码查询不同的字符串所使用的编码,具体操作详见:用chard…

Eclipse中添加对Python的中文支持

原文链接:http://down.51cto.com/data/751371 首先要确保eclipse编辑器环境的编码为utf8,这个是大前提:其次如果py文件中含有中文字符的话,需要在py文件中对编码进行声明. 1. 修改eclipse编辑器编码 a)设置工作空间编码:窗口->首选项->工作空间->UTF-8 b) 设置编辑器编码:窗口->首选项->编辑器->文本编辑器->拼写->UTF-8 c) 设置配置编码:打开eclipse安装目录->ec…

python listdir() 中文路径中文文件夹乱码解决方法

python listdir() 中文路径中文文件夹乱码解决方法 listdir(path)返回的结果的编码似乎和我们提供的 path 参数的编码有关: path = 'd:/test' try: path = unicode(path, 'utf-8') # 经过编码处理 except: pass # python3 已经移除 unicode,而且默认是 utf8 编码,所以不用转 listdir(path) 这样,就算 path 下有中文的文件和文件夹,我们获得的结果是 utf-8 的…

关于Python中中文文本文件使用二进制方式读取后的解码UnicodeDecodeError问题

最近老猿在进行文件操作的验证测试,发现对于中文文本文件如果使用二进制方式打开,返回的类型是bytes,如果要转换成可读的字符串信息需要进行解码.可是老猿使用decode()或decode("UTF-8")解码后报错: Traceback (most recent call last): File "<pyshell#24>", line 3, in print("line.decode():",line.decode()) Unico…

python 匹配中文字符

参考: http://hi.baidu.com/nivrrex/blog/item/e6ccaf511d0926888d543071.html http://topic.csdn.net/u/20070404/15/b011aa83-f9b7-43b3-bbff-bfe4f653df03.html 首先,确保所有编码都为 unicode 比如 str.decode('utf8') #从utf8文本中 u"啊l" #在控制台…

Python读取中文txt文件错误：UnicodeEncodeError: 'gbk' codec can't encode character

with open(file,'r') as f: line=f.readline() i=1 while line: line=line.decode('utf-8') line=f.readline() i=i+1 用以上代码读取一个包含中文的txt文件时,在正确地读取并打印了六百多行之后,print str(i)+": "+line这一行报错: UnicodeEncodeError: 'gbk' codec can't encode character u'\u200b' in…

python matplotlib 中文显示参数设置

python matplotlib 中文显示参数设置方法一:每次编写代码时进行参数设置 #coding:utf-8import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False #用来正常显示负号#有中文出现的情况,需要u'内容'方法二:import matplotlibmatplotlib.matplotl…

MyEclipse 中文乱码史诗级解决方法。也可用于其他编码

最近发现以前写的项目全乱码了.唯独 .java 中的中文全是乱码. 由于,后期的项目把默认编码改成了UTF-8所以就乱了. 每个编码表的编码都不一样.不能直接通过改某个属性来更改达到目的 (除非你是第一次调环境来定义该项目以什么编码形式来编译.) String s="中国"; byte [] by=s.getBytes("UTF-8"); for(byte b:by) { System.out.println(b); } 可查看具体的编码. 其实myEclipse…

当list中有中文，打印的时候显示为字符编码的问题

当list中有中文时,print list显示的会是字符编码,比如: 用str()当然也不行: 在不安装其他包的情况下,目前我知道的解决办法是使用decode('string_escape'),如下:…

用python做中文自然语言预处理

这篇博客根据中文自然语言预处理的步骤分成几个板块.以做LDA实验为例,在处理数据之前,会写一个类似于实验报告的东西,用来指导做实验,OK,举例: 一,实验数据预处理(python,结巴分词)1.对于爬取的评论做分词和词性标注处理(mac-result.txt)2.对于结果只用公版的停用词表去停用词,不进行人工筛选(mac-result1.txt)3.保留:名词,名词短语(两者为评论描述主题) 形容词,动词,动词短语(对主题的描述)以及其他可能有实意的词去除:副词,标点,拟声词等无实意词包括…

Python【第三篇】文件操作、字符编码

一.文件操作文件操作分为三个步骤:文件打开.操作文件.关闭文件,但是,我们可以用with来管理文件操作,这样就不需要手动来关闭文件. 实现原理: import contextlib @contextlib.contextmanager def show(): print('123') yield print('456') with show(): print('777') print('888') print('999') 操作步骤 #windows下默认为gbk,要指定编码为'utf-8'…

Python编程笔记（第二篇）二进制、字符编码、数据类型

一.二进制 bin() 在python中可以用bin()内置函数获取一个十进制的数的二进制计算机容量单位 8bit = 1 bytes 字节,最小的存储单位,1bytes缩写为1B 1KB = 1024B 1MB = 1024KB 1GB = 1024MB 1TB = 1024 GB 1PB = 1024 TB 1EB = 1024 PB 1ZB = 1024 EB 1YB = 1024 ZB 1BB = 1024 YB 二.字符编码 Unicode编码:国际标准字符集,它将世界的各种语言的每…

python matplotlib 中文显示乱码设置

python matplotlib 中文显示乱码设置原因:是matplotlib库中没有中文字体.1 解决方案:1.进入C:\Anaconda64\Lib\site-packages\matplotlib\mpl-data该文件夹下就能看到matplotlibrc配置文件,打开该配置文件找到下面这行:然后,将前面的注释去掉,save. #font.serif : Bitstream Vera Serif, New Century Schoolbook, Century Schoolbook…

python report中文显示乱码

环境:python2.7 测试框架: nose (1.3.7) nose-html-reporting (0.2.3) 问题:生成测试报告失败的时候,报告会抓取代码中的print,打开后看到的中文是乱码的. 问题的原因: 代码生成有这样一段: def _format_output(self, o): if isinstance(o, str): return o.decode('latin-1') else: return o 可以看出来这个地方用了Latin1也就是是ISO-8859-1编码.…

【python 处理中文遇到的编码问题总结以及字符str的编码如何判断】的更多相关文章