python 正则表达式匹配中文(转)

网上的一篇文章，做了整理，作者已无从考证，谢谢了

 s="""

 en: Regular expression is a powerful tool for manipulating text.

 zh: 中文

 jp: 正規表現は非常に役に立つツールテキストを操作することです。

 jp-char: あアいイうウえエおオ

 kr:정규 표현식은 매우 유용한 도구 텍스트를 조작하는 것입니다.

 puc: 。？！、，；：“ ”‘ '——……·－·《》〈〉！￥％＆＊＃

 """

 print "原始utf8字符"

 #utf8

 print "--------"

 print repr(s)

 print "--------\n"

 #非ansi

 re_words=re.compile(r"[\x80-\xff]+")

 m =  re_words.search(s,0)

 print "非ansi字符"

 print "--------"

 print m

 print m.group()

 print "--------\n"

 #unicode

 s = unicode(s)

 print "原始unicode字符"

 print "--------"

 print repr(s)

 print "--------\n"

 #unicode chinese

 re_words = re.compile(u"[\u4e00-\u9fa5]+")

 m =  re_words.search(s,0)

 print "unicode 中文"

 print "--------"

 print m

 print m.group()

 print "--------\n"

 #unicode korean

 re_words=re.compile(u"[\uac00-\ud7ff]+")

 m =  re_words.search(s,0)

 print "unicode 韩文"

 print "--------"

 print m

 print m.group()

 print "--------\n"

 #unicode japanese katakana

 re_words=re.compile(u"[\u30a0-\u30ff]+")

 m =  re_words.search(s,0)

 print "unicode 日文 片假名"

 print "--------"

 print m

 print m.group()

 print "--------\n"

 #unicode japanese hiragana

 re_words=re.compile(u"[\u3040-\u309f]+")

 m =  re_words.search(s,0)

 print "unicode 日文 平假名"

 print "--------"

 print m

 print m.group()

 print "--------\n"

 #unicode cjk Punctuation

 re_words=re.compile(u"[\u3000-\u303f\ufb00-\ufffd]+")

 m =  re_words.search(s,0)

 print "unicode 标点符号"

 print "--------"

 print m

 print m.group()

 print "--------\n"

 -------------------------------------------------------

 原始utf8字符

 --------

 "\nen: Regular expression is a powerful tool for manipulating text. \nzh: \xe4\xb8\xad\xe6\x96\x87 \njp: \xe6\xad\xa3\xe8\xa6\x8f\xe8\xa1\xa8\xe7\x8f\xbe\xe3\x81\xaf\xe9\x9d\x9e\xe5\xb8\xb8\xe3\x81\xab\xe5\xbd\xb9\xe3\x81\xab\xe7\xab\x8b\xe3\x81\xa4\xe3\x83\x84\xe3\x83\xbc\xe3\x83\xab\xe3\x83\x86\xe3\x82\xad\xe3\x82\xb9\xe3\x83\x88\xe3\x82\x92\xe6\x93\x8d\xe4\xbd\x9c\xe3\x81\x99\xe3\x82\x8b\xe3\x81\x93\xe3\x81\xa8\xe3\x81\xa7\xe3\x81\x99\xe3\x80\x82 \njp-char: \xe3\x81\x82\xe3\x82\xa2\xe3\x81\x84\xe3\x82\xa4\xe3\x81\x86\xe3\x82\xa6\xe3\x81\x88\xe3\x82\xa8\xe3\x81\x8a\xe3\x82\xaa \nkr:\xec\xa0\x95\xea\xb7\x9c \xed\x91\x9c\xed\x98\x84\xec\x8b\x9d\xec\x9d\x80 \xeb\xa7\xa4\xec\x9a\xb0 \xec\x9c\xa0\xec\x9a\xa9\xed\x95\x9c \xeb\x8f\x84\xea\xb5\xac \xed\x85\x8d\xec\x8a\xa4\xed\x8a\xb8\xeb\xa5\xbc \xec\xa1\xb0\xec\x9e\x91\xed\x95\x98\xeb\x8a\x94 \xea\xb2\x83\xec\x9e\x85\xeb\x8b\x88\xeb\x8b\xa4. \npuc: \xe3\x80\x82\xef\xbc\x9f\xef\xbc\x81\xe3\x80\x81\xef\xbc\x8c\xef\xbc\x9b\xef\xbc\x9a\xe2\x80\x9c \xe2\x80\x9d\xe2\x80\x98 '\xe2\x80\x94\xe2\x80\x94\xe2\x80\xa6\xe2\x80\xa6\xc2\xb7\xef\xbc\x8d\xc2\xb7\xe3\x80\x8a\xe3\x80\x8b\xe3\x80\x88\xe3\x80\x89\xef\xbc\x81\xef\xbf\xa5\xef\xbc\x85\xef\xbc\x86\xef\xbc\x8a\xef\xbc\x83 \n"

 --------

 非ansi字符

 --------

 <_sre.SRE_Match object at 0x01A6C330>

 中文

 --------

 原始unicode字符

 --------

 u"\nen: Regular expression is a powerful tool for manipulating text. \nzh: \u4e2d\u6587 \njp: \u6b63\u898f\u8868\u73fe\u306f\u975e\u5e38\u306b\u5f79\u306b\u7acb\u3064\u30c4\u30fc\u30eb\u30c6\u30ad\u30b9\u30c8\u3092\u64cd\u4f5c\u3059\u308b\u3053\u3068\u3067\u3059\u3002 \njp-char: \u3042\u30a2\u3044\u30a4\u3046\u30a6\u3048\u30a8\u304a\u30aa \nkr:\uc815\uaddc \ud45c\ud604\uc2dd\uc740 \ub9e4\uc6b0 \uc720\uc6a9\ud55c \ub3c4\uad6c \ud14d\uc2a4\ud2b8\ub97c \uc870\uc791\ud558\ub294 \uac83\uc785\ub2c8\ub2e4. \npuc: \u3002\uff1f\uff01\u3001\uff0c\uff1b\uff1a\u201c \u201d\u2018 '\u2014\u2014\u2026\u2026\xb7\uff0d\xb7\u300a\u300b\u3008\u3009\uff01\uffe5\uff05\uff06\uff0a\uff03 \n"

 --------

 unicode 中文

 --------

 <_sre.SRE_Match object at 0x014F68A8>

 中文

 --------

 unicode 韩文

 --------

 <_sre.SRE_Match object at 0x01A6C330>

 정규

 --------

 unicode 日文 片假名

 --------

 <_sre.SRE_Match object at 0x014F68A8>

 ツールテキスト

 --------

 unicode 日文 平假名

 --------

 <_sre.SRE_Match object at 0x01A6C330>

 は

 --------

 unicode 标点符号

 --------

 <_sre.SRE_Match object at 0x014F68A8>

 。

 --------

python 正则表达式匹配中文(转)的更多相关文章

Python从文件中读取字符串，用正则表达式匹配中文字符的问题
2013-07-27 21:01:37| 在Windows下,用Python从.txt文件中读取字符串,并用正则表达式匹配中文,在网上看了方法,用的时候发现中文没有被匹配. ...
[转载]Python正则表达式匹配反斜杠'\'问题
转载自csdnblog:Python正则表达式匹配反斜杠'\'问题在学习Python正则式的过程中,有一个问题一直困扰我,如何去匹配一个反斜杠(即“\”)? 一.引入在学习了Python特殊字符和 ...
Python: 正则表达式匹配反斜杠 "\"
Python正则表达式匹配反斜杠 "\" eg: >>>a='w\w\w' 'w\\w\\w' # 打印出来的 "\\" 被转义成一个反斜 ...
PHP 正则表达式匹配中文字符
例如在 MySQL 的 bin-log 文件中选取特定的数据库语句来恢复数据时,只要选出某个库的 INSERT INTO 操作(去掉了多余信息,只列出 SQL 语句) INSERT INTO `crm ...
sublimetext 使用正则表达式匹配中文
[\x{4e00}-\x{9fa5}] ============================================= 参考资料 1.在javascript下正确的\x4e00-\x9fa ...
python正则匹配——中文字符的匹配
# -*- coding:utf-8 -*- import re '''python 3.5版本正则匹配中文,固定形式:\u4E00-\u9FA5 ''' words = 'study in 山海大 ...
Python 正则表达式匹配次数
管道可以匹配多个正则表达式中的一个 >>> >>> m=re.search(r'Batman|Tina Fey','Batman and Tina Fey')> ...
python 正则表达式匹配IP地址
一.实验环境 1.Windows7x64_SP1 2.anaconda2.5.0 + python2.7(anaconda集成,不需单独安装) 3.pyinstaller3.0 二.实验目的从tex ...
python 正则匹配中文(unicode)(转)
由于需求原因,需要匹配提取中文,大量google下,并没有我需要的.花了一个小时大概测试,此utf8中文通过,特留文. 参考: http://hi.baidu.com/nivrrex/blo ...

随机推荐

c# 深拷贝与浅拷贝的区别分析及实例
浅拷贝(影子克隆):只复制对象的基本类型,对象类型,仍属于原来的引用. 深拷贝(深度克隆):不紧复制对象的基本类,同时也复制原对象中的对象.就是说完全是新对象产生的. 深拷贝是指源对象与拷贝对象互相独 ...
liunx系统下安装mysql数据库5.7.13版本
一:在/usr/local目录下解压安装包
ZooKeeper文档(二)
ZooKeeper:因为协调的分布式系统是一个动物园 ZooKeeper对分布式应用来说是一个高性能的协调服务.它暴露通常的服务-比如命名,配置管理,同步,和组服务-用一种简单的接口,所以你不用从头开 ...
leetcode 刷题日志 2018-3-28
树: 404. 左叶子之和求所有左叶子结点之和 . 递归法分析:递归法遍历结点,找左叶子结点空指针判断有左子节点?是叶子结点?是的话更新value的值 int sumOfLeftLeaves( ...
EntitySpace 常用语句
EntitySpace 这个是很早期的ORM框架,最近发现这个破解的也都不能用了.有谁知道能用的,联系我. 1. where带几个条件的 query.Where(query.ProductTempSt ...
MyISAM和InnoDB的行格式ROW_FORMAT
MyISAM行存储 MyISAM有3种行存储格式:fixed / dynamic / compressed: 格式说明备注 fixed 只有当表不包含变长字段(varchar/varbina ...
JS练习题（左侧菜单下拉+好友选中）
题一.左侧菜单下拉做题思路:先做菜单和子菜单,把子菜单默认隐藏.再用JS调样式. <style type="text/css"> *{ margin:0px auto ...
多重部分和问题（dp）
题目描述有n种不同大小的数字Ai,每种各Mi个.判断是否能从这些数字中选出若干个使它们的和恰好为K. 这个问题可以用DP求解,递推关系式的定义会影响最终的复杂度. 第一种定义: dp[i+1][j] ...
C# 文件操作常用方法总结
需引用 System.IO Path为绝对路径检测指定目录是否存在 Directory.Exists(Path) 创建目录 Directory.CreateDirectory(Path) 删除目录 ...
【Python项目】使用Face++的人脸识别detect API进行本地图片情绪识别并存入excel
准备工作首先,需要在Face++的主页注册一个账号,在控制台去获取API Key和API Secret. 然后在本地文件夹准备好要进行情绪识别的图片/相片. 代码介绍下所使用的第三方库 ——url ...

python 正则表达式匹配中文(转)

python 正则表达式匹配中文(转)的更多相关文章

随机推荐

热门专题