python利用utf-8编码判断中文英文字符(转)

下面这个小工具包含了判断unicode是否是汉字、数字、英文或者其他字符，全角符号转半角符号，unicode字符串归一化等工作。

#!/usr/bin/env python

# -*- coding:GBK -*-

"""汉字处理的工具:

判断unicode是否是汉字，数字，英文，或者其他字符。

全角符号转半角符号。"""

__author__="internetsweeper <zhengbin0713@gmail.com>"

__date__="2007-08-04"

def is_chinese(uchar):

"""判断一个unicode是否是汉字"""

if uchar >= u'\u4e00' and uchar<=u'\u9fa5':

return True

else:

return False

def is_number(uchar):

"""判断一个unicode是否是数字"""

if uchar >= u'\u0030' and uchar<=u'\u0039':

return True

else:

return False

def is_alphabet(uchar):

"""判断一个unicode是否是英文字母"""

if (uchar >= u'\u0041' and uchar<=u'\u005a') or (uchar >= u'\u0061' and uchar<=u'\u007a'):

return True

else:

return False

def is_other(uchar):

"""判断是否非汉字，数字和英文字符"""

if not (is_chinese(uchar) or is_number(uchar) or is_alphabet(uchar)):

return True

else:

return False

def B2Q(uchar):

"""半角转全角"""

inside_code=ord(uchar)

if inside_code<0x0020 or inside_code>0x7e: #不是半角字符就返回原来的字符

return uchar

if inside_code==0x0020: #除了空格其他的全角半角的公式为:半角=全角-0xfee0

inside_code=0x3000

else:

inside_code+=0xfee0

return unichr(inside_code)

def Q2B(uchar):

"""全角转半角"""

inside_code=ord(uchar)

if inside_code==0x3000:

inside_code=0x0020

else:

inside_code-=0xfee0

if inside_code<0x0020 or inside_code>0x7e: #转完之后不是半角字符返回原来的字符

return uchar

return unichr(inside_code)

def stringQ2B(ustring):

"""把字符串全角转半角"""

return "".join([Q2B(uchar) for uchar in ustring])

def uniform(ustring):

"""格式化字符串，完成全角转半角，大写转小写的工作"""

return stringQ2B(ustring).lower()

def string2List(ustring):

"""将ustring按照中文，字母，数字分开"""

retList=[]

utmp=[]

for uchar in ustring:

if is_other(uchar):

if len(utmp)==0:

continue

else:

retList.append("".join(utmp))

utmp=[]

else:

utmp.append(uchar)

if len(utmp)!=0:

retList.append("".join(utmp))

return retList

if __name__=="__main__":

#test Q2B and B2Q

for i in range(0x0020,0x007F):

print Q2B(B2Q(unichr(i))),B2Q(unichr(i))

#test uniform

ustring=u'中国人名ａ高频Ａ'

ustring=uniform(ustring)

ret=string2List(ustring)

print ret

以上转自http://hi.baidu.com/fenghua1893/item/d1a71d5ac47ffdcfd3e10cd1

这个问题是做 MkIV 预处理程序时搞定的，就是把一个混合了中英文混合字串分离为英文与中文的子字串，譬如，将 ”我的 English 学的不好“ 分离为 “我的"、" English ” 与 "学的不好" 三个子字串。

1. 中英文混合字串的统一编码表示中英文混合字串处理最省力的办法就是把它们的编码都转成 Unicode，让一个汉字与一个英文字母的内存位宽都是相等的。这个工作用 Python 来做，比较合适，因为 Python 内码采用的是 Unicode，并且为了支持 Unicode 字串的操作，Python 做了一个 Unicode 内建模块，把 string 对象的全部方法重新实现了一遍，另外提供了 Codecs 对象，解决各种编码类型的字符串解码与编码问题。
譬如下面的 Python 代码，可实现 UTF-8 编码的中英文混合字串向 Unicode 编码的转换：# -*-

coding:utf-8 -*-
a = "我的 English 学的不好"
print type(a),len (a), a
b = unicode (a, "utf-8")
print type(b), len (b), b字符串 a 是 utf-8 编码，使用 python 的内建对象 unicode 可将其转换为 Unicode 编码的字符串 b。上述代码执行后的输出结果如下所示，比较字串 a 与字串 b 的长度，显然 len (b) 的输出结果是合理的。<type 'str'> 27 我的 English 学的不好
<type 'unicode'> 15 我的 English 学的不好要注意的一个问题是 Unicode 虽然号称是“统一码”，不过也是存在着两种形式，即：
UCS-2：为 16 位码，具有 2^16 = 65536 个码位； UCS-4：为 32 位码，目前的规定是其首字节的首位为 0，因此具有 2^31 = 2147483648 个码位，不过现在的只使用了 0x00000000 － 0x0010FFFF 之间的码位，共 1114112 个。
使用Python sys 模块提供的一个变量 maxunicode 的值可以判断当前 Python 所使用的 Unicode 类型是 UCS-2 的还是 UCS-4 的。import sys
print sys.maxunicode若 sys.maxunicode 的值为 1114111，即为 UCS-4；若为 65535，则为 UCS-2。

2. 中英文混合字串的分离一旦中英文字串的编码获得统一，那么对它们进行分裂就是很简单的事情了。首先要为中文字串与英文字串分别准备一个收集器，使用两个空的字串对象即可，譬如 zh_gather 与 en_gather；然后要准备一个列表对象，负责按分离次序存储 zh_gather 与 en_gather 的值。下面这个 Python 函数接受一个中英文混合的 Unicode 字串，并返回存储中英文子字串的列表。def split_zh_en (zh_en_str):

zh_en_group = []
        zh_gather = ""
        en_gather = ""
        zh_status = False

for c in zh_en_str:
                if not zh_status and is_zh (c):
                        zh_status = True
                        if en_gather != "":
                                zh_en_group.append ([mark["en"],en_gather])
                                en_gather = ""
                elif not is_zh (c) and zh_status:
                        zh_status = False
                        if zh_gather != "":
                                zh_en_group.append ([mark["zh"], zh_gather])
                if zh_status:
                        zh_gather += c
                else:
                        en_gather += c
                        zh_gather = ""

if en_gather != "":
                zh_en_group.append ([mark["en"],en_gather])
        elif zh_gather != "":
                zh_en_group.append ([mark["zh"],zh_gather])

return zh_en_group上述代码所实现的功能细节是：对中英文混合字串 zh_en_str 的遍历过程中进行逐字识别，若当前字符为中文，则将其添加到 zh_gather 中；若当前字符为英文，则将其添加到 en_gather 中。zh_status 表示中英文字符的切换状态，当 zh_status 的值发生突变时，就将所收集的中文子字串或英文子字串添加到 zh_en_group 中去。
判断字串 zh_en_str 中是否包含中文字符的条件语句中出现了一个 is_zh () 函数，它的实现如下：def is_zh (c):
        x = ord (c)
        # Punct & Radicals
        if x >= 0x2e80 and x <= 0x33ff:
                return True

# Fullwidth Latin Characters
elif x >= 0xff00 and x <= 0xffef:
return True

# CJK Unified Ideographs &
        # CJK Unified Ideographs Extension A
        elif x >= 0x4e00 and x <= 0x9fbb:
                return True
        # CJK Compatibility Ideographs
        elif x >= 0xf900 and x <= 0xfad9:
                return True

# CJK Unified Ideographs Extension B
elif x >= 0x20000 and x <= 0x2a6d6:
return True

# CJK Compatibility Supplement
elif x >= 0x2f800 and x <= 0x2fa1d:
return True

else:
                return False这段代码来自 jjgod 写的 XeTeX 预处理程序。
对于分离出来的中文子字串与英文子字串，为了使用方便，在将它们存入 zh_en_group 列表时，我对它们分别做了标记，即 mark["zh"] 与 mark["en"]。mark 是一个 dict 对象，其定义如下：mark = {"en":1, "zh":2}如果要对 zh_en_group 中的英文字串或中文字串进行处理时，标记的意义在于快速判定字串是中文的，还是英文的，譬如：for str in zh_en_group:
        if str[0] = mark["en"]:
                do somthing
        else:
                do somthing

python利用utf-8编码判断中文英文字符(转)的更多相关文章

python（40）：利用utf-8编码判断中文英文字符
#!/usr/bin/env Python # -*- coding:GBK -*- """汉字处理的工具: 判断unicode是否是汉字,数字,英文,或者其他字符. 全 ...
SQL Server判断某个字段是否包含中文/英文字符/数字
原文:SQL Server判断某个字段是否包含中文/英文字符/数字因最近在清理系统中的脏数据,需要查询某个字段是否包含中文/英文字符/数字的数据, 比较简单,仅以此篇博客做一个简单总结,方便以后查阅 ...
python利用utf-8编码判断中文字符
下面这个小工具包含了判断unicode是否是汉字,数字,英文,或者其他字符. 全角符号转半角符号. unicode字符串归一化等工作. 还有一个能处理多音字的汉字转拼音的程序,还在整理中. #!/u ...
Python MySQLdb 使用utf-8 编码插入中文数据
参考地址:http://blog.csdn.net/dkman803/article/details/1925326/ 本人在使用python,mysqldb操作数据库的时候,发现如下问题,编码如下: ...
[转] Python 字符编码判断
转自:http://www.cnblogs.com/dkblog/archive/2011/03/02/1980644.html 法一: isinstance(s, str) 用来判断是否为一般字符串 ...
Python 字符编码判断
题记在获取中文字符的时候,如果出现乱码的情况,我们需要了解当前的字符串的编码形式.使用下面两种方法可以判断字符串的编码形式. 法一: isinstance(s, str) 用来判断是否为一般字符串 ...
python的编码判断_unicode_gbk/gb2312_utf8（附函数）
python中, 我们平常使用最多的三种编码为 gbk/gb2312, utf8 , unicode. 而python中并没有一个函数来进行编码的判断.今天,主要对这三种编码进行讨论,并给出区分 ...
SQL判断某列中是否包含中文字符或者英文字符
SQL判断某列中是否包含中文字符或者英文字符 [sql] select * from 表名 where 某列 like '%[吖-座]%' select * from 表名 where ...
SQL判断某列中是否包含中文字符、英文字符、纯数字 (转)
一.包含中文字符 select * from 表名 where 列名 like '%[吖-座]%' 二.包含英文字符 select * from 表名 where 列名 like '%[a-z]%' ...

随机推荐

vsvim _vsvimrc 设置（转）
c_joewang的专栏 (转) vsvim安装到vs2010后可以使用绝大部分原生vim的编辑功能,包括宏录制,也可以通过配置设置键盘映射,关于支持的编辑功能等可以参考上面链接去查看相关文档. Vi ...
mysql 的not null 与 null的区别（转，恍然大悟）
相信很多用了mysql很久的人,对这两个字段属性的概念还不是很清楚,一般会有以下疑问: 1.我字段类型是not null,为什么我可以插入空值 2.为毛not null的效率比null高 3.判断字段 ...
codeforces 589F. Gourmet and Banquet 二分+网络流
题目链接给你n种菜, 每一种可以开始吃的时间不一样, 结束的时间也不一样. 求每种菜吃的时间都相同的最大的时间.时间的范围是0-10000. 看到这个题明显可以想到网络流, 但是时间的范围明显不允许 ...
ortoiseSVN无法编辑日志信息的解决方法
提交时忘记编写日志,想重新编辑日志信息,弹出错误提示: DAV 请求失败:可能是版本库的 pre-revprop-change 钩子执行失败或者不存在至少有一个属性变更失败:版本库未改变设置属性 ...
《Pointers On C》读书笔记(第五章操作符和表达式)
1．C语言操作符优先级表 2．算术操作符中%(取模操作符)只适用于整型类型,其余几个操作符(+.-.*./)既适用于整型类型也适用于浮点类型.当/操作符的两个操作数都是整型时,它执行整除运算,其它情况 ...
linux内核升级图文攻略
Linux内核概览 Linux是一个一体化内核(monolithic kernel)系统. 设备驱动程序可以完全访问硬件. Linux内的设备驱动程序可以方便地以模块化(modularize)的形式设 ...
ecshop删除商品函数
/** * 从回收站删除多个商品 * @param mix $goods_id 商品id列表:可以逗号格开,也可以是数组 * @return void */ function delete_goods ...
Codeforces 701C They Are Everywhere（Two pointers+STL）
[题目链接] http://codeforces.com/problemset/problem/701/C [题目大意] 给出一个字符串,里面包含一定种类的字符,求出一个最短的子串,使得其包含该字符 ...
perl笔记
更精确的空白字符串匹配 1.水平空白字符 Perl5.10之前,使用\s这种分类,不够精确,容易导致意料外的结果: Perl5.10中引入\h字符组,用来匹配任意水平空白字符(包括Unicode字符集 ...
VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法]
VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法] - tingya的专栏 - 博客频道 - CSDN.NET VIPS:基于视觉的页面分割算法[微软下一代搜索引擎核心分页算法] 分类 ...

python利用utf-8编码判断中文英文字符(转)

python利用utf-8编码判断中文英文字符(转)的更多相关文章

随机推荐

热门专题