Python只读取文本中文字符

#coding=utf-8 import re with open('aaa.txt','r',encoding="utf-8") as f: #data = f.read().decode('gbk').encode('utf-8') data = f.read() print(data) #str = re.sub(r'(\\u\d+)',"",data) #data = re.sub("[A-Za-z0-9\!\%\[\]\,\.]", &…

python匹配某个中文字符

python2.7对中文的支持不好是众所周知的,现在遇到这样一个需求,要匹配某个中文字符.查了一个资料,思路就是转化为unicode进行比较,记录如下: line = '参考答案: A' # gbk -> unicode # 看需要,这里是把gbk转化为unicode,也可以把utf-8转换为unicode line = line.decode('gbk').strip() # 匹配 '参考答案' 四个字 if re.match(u'^\u53c2\u8003\u7b54\u6848', lin…

python json.dumps 中文字符乱码

场景:微信公众号推送消息,中文乱码. Date:2017-05-11 10:58:40.033000,\u4f60\u597d 解决方法: python dumps默认使用的ascii编码,使用 ensure_ascii=False 关掉这个默认选项就可以了. 效果: Date:2017-05-11 11:21:44.760000,你好…

python正则匹配——中文字符的匹配

# -*- coding:utf-8 -*- import re '''python 3.5版本正则匹配中文,固定形式:\u4E00-\u9FA5 ''' words = 'study in 山海大学' regex_str = ".*?([\u4E00-\u9FA5]+大学)" match_obj = re.match(regex_str, words) if match_obj: print(match_obj.group(1)) 结果:山海大学…

python随机生成中文字符

第一种方法:Unicode码在unicode码中,汉字的范围是(0x4E00, 9FBF) import random def Unicode(): val = random.randint(0x4e00, 0x9fbf) return chr(val) 这个方法比较简单,但是有个小问题,unicode码中收录了2万多个汉字,包含很多生僻的繁体字. 第二种方法:GBK2312 gbk2312对字符的编码采用两个字节相组合,第一个字节的范围是0xB0-0xF7, 第二个字节的范围是0xA1-0x…

Python中文字符问题

Python中对中文字符的操作时常会使程序出现乱码不全然管用的处理方法: 读取数据时使用encode编码为Bytes以保护数据使用时转化为string并使用decode解码如: title = title_origin[0].encode('utf-8') title = str(title.decode('utf-8'))…

Python: 在CSV文件中写入中文字符

0.2 2016.09.26 11:28* 字数 216 阅读 8053评论 2喜欢 5 最近一段时间的学习中发现,Python基本和中文字符杠上了.如果能把各种编码问题解决了,基本上也算对Python比较熟悉了. For UTF-8 encoding, Excel requires BOM (byte order mark) codepoint written at the start of the file or it will assume ANSI encoding, which is…

python中文字符乱码（GB2312，GBK，GB18030相关的问题）

转自博主 crifan http://againinput4.blog.163.com/blog/static/1727994912011111011432810/ 在玩wordpress的一个博客搬家工具BlogMover,其包含几个python脚本,其中有个是163博客搬家用的163-blog-mover.py,实现抓取网易博客的日志,然后导出xml. 但是其工具现在(2011-12-10)已经失效了.经过自己一点修改后,可以实现获得文章标题了. 用法还是原先的用法: 163-blog-m…

Python中文字符的理解：str()、repr()、print

Python中文字符的理解:str().repr().print 字数1384 阅读4 评论0 喜欢0 都说Python人不把文字编码这块从头到尾.从古至今全研究通透的话是完全玩不转的.我终于深刻的理解到了.通宵了好几夜,各种试验,print.print再print,中文还是既得不到也输不出.看了网上几乎所有主要的相关文章,还是没搞定.沉静下来开始反思:是他们写的不好,还是我理解的不好?所以我决定,再加深程度,一步一个脚印地研究这个问题,不忽略任何一个小细节的理解.先从字符串在Python中最基…

python 连接数据库-设置oracle ，mysql 中文字符问题

import cx_Oracle import MySQLdb def conn_oracle(): cnn = cx_Oracle.connect('用户名','密码','ip:端口号/数据库') //用户名,密码,ip端口号数据库 cur = cnn.cursor() return cnn,cur def close_oracle(cnn,cur): cur.close() cnn.close() def conn_mysql(): cnn = MySQLdb.connect(user="用…

python处理中文字符

1.在py文件中使用中文字符 unicode.py文件内容如下所示: # -*- coding:utf-8 -*- str_ch = '我们women' uni_ch = u'我们women' print "type:", type(str_ch), "content:", str_ch, repr(str_ch) print "type:", type(uni_ch), "content:", uni_ch, repr(un…

中文字符 unicode转utf-8函数 python实现

unicode编码范围 00000000-0000007F的字符,用单个字节来表示: 00000080-000007FF的字符用两个字节表示 (中文的编码范围) 00000800-0000FFFF的字符用3字节表示转换规则 0000~007F 1字节 0xxxxxxx 0080~07FF 2字节 110xxxxx 10xxxxxx 0800~FFFF 3字节 1110xxxx 10xxxxxx 10xxxxxx 4字节 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx…

python第二十九课——文件读写(读取读取中文字符)

演示:读取中文字符结论: 1).如果不设置encoding,默认使用gbk进行编解码 2).如果编码和解码不一致,最终导致报错,但是一旦设置了errors='ingore',那么就不会报错,而采取乱码现象显示 3).tell():返回的是文件描述符的字节位 4).对于读操作,必须保证路径中的文件一定是真实存在的,否则报错:FileNotFoundError #打开文件: f2=open(r'F:\PyCharm\多味红豆\python第二十九课——文件读写\a.txt','r',encodin…

python利用utf-8编码判断中文字符

下面这个小工具包含了判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号. unicode字符串归一化等工作. 还有一个能处理多音字的汉字转拼音的程序,还在整理中. #!/usr/bin/env python # -*- coding:GBK -*- """汉字处理的工具: 判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号.""" __author__="internetsweepe…

python 判断字符串中是否只有中文字符

python 判断字符串中是否只有中文字符学习了:https://segmentfault.com/q/1010000007898150 def is_all_zh(s): for c in s: if not ('\u4e00' <= c <= '\u9fa5'): return False return True…

python 中文字符的处理

刚开始学习python的时候,都是对这英文的翻译书学习的.没有解除到中文编码的相关问题,直到自己用python去做相关的项目的时候才发先中文编码问题真的非常头疼啊.这里分享一下本人所了解的一些经验. 读取utf-8个格式存储的文件 1. 假如现在有一个文件test.txt,里面有内容“python学习”,该文件以utf-8格式存储.那么读取并输出该字符串的方法如下: filehandle=open("test.txt","r") ## the file is sav…

处理python字符串中的中文字符

# -*- coding:utf-8 -*- import sys,os txta = open('a.txt','r') str = '' for line in txta: str += line.strip().decode('utf-8') txta.close() for word in str: print word.encode('utf-8') 直接输出,是会乱码的,得先解码,再编码. 参考网址:http://blog.csdn.net/devil_2009/article/de…