Unicode 通用类别:

http://msdn.microsoft.com/zh-cn/library/20bw873z(VS.80).aspx

类别 说明

Lu

字母,大写

Ll

字母,小写

Lt

字母,词首字母大写

Lm

字母,修饰符

Lo

字母,其他

Mn

标记,非间距

Mc

标记,间距组合

Me

标记,封闭

Nd

数字,十进制数

Nl

数字,字母

No

数字,其他

Pc

标点,连接符

Pd

标点,短划线

Ps

标点,开始

Pe

标点,结束

Pi

标点,前引号(根据用途可能表现为类似 Ps 或 Pe)

Pf

标点,后引号(根据用途可能表现为类似 Ps 或 Pe)

Po

标点,其他

Sm

符号,数学

Sc

符号,货币

Sk

符号,修饰符

So

符号,其他

Zs

分隔符,空白

Zl

分隔符,行

Zp

分隔符,段落

Cc

其他,控制

Cf

其他,格式

Cs

其他,代理项

Co

其他,私用

Cn

其他,未赋值(不存在任何字符具有此属性)

.NET Framework 提供其他类别,用于表示一组 Unicode 字符类别,如下表所示。

类别 表示

C

(所有控制字符)CcCfCsCo 和 Cn

L

(所有字母)LuLlLtLm 和 Lo

M

(所有附加符号标记)MnMc 和 Me

N

(所有数字)NdNl 和 No

P

(所有标点)PcPdPsPePiPf 和 Po

S

(所有符号)SmScSk 和 So

Z

(所有分隔符)ZsZl 和 Zp

UnicodeCategory 枚举

http://msdn.microsoft.com/zh-cn/library/system.globalization.unicodecategory.aspx 成员

 
  成员名称 说明
Lu UppercaseLetter 指示字符是大写字母。
Ll LowercaseLetter 指示字符是小写字母。
Lt TitlecaseLetter 指示字符是词首字母大写字母。
Lm ModifierLetter 指示字符是修饰符字母,它是独立式的间距字符,指示前面字母的修改。
Lo OtherLetter 指示字符是字母,但它不是大写字母、小写字母、词首字母大写或修饰符字母。
Mn NonSpacingMark 指示字符是非间距字符,这指示基字符的修改。
Mc SpacingCombiningMark 指示字符是间距字符,这指示基字符的修改并影响该基字符的标志符号的宽度。
Me EnclosingMark 指示字符是封闭符号,封闭符号是非间距组合字符,它环绕直到基字符(并包括基字符)的所有前面的字符。
Nd DecimalDigitNumber 指示字符是十进制数字,即在范围 0 到 9 内。
Nl LetterNumber 指示字符是由字母表示的数字,而不是十进制数字,例如,罗马数字 5 由字母“V”表示。
No OtherNumber 指示字符是数字,但它既不是十进制数字也不是字母数字,例如分数 1/2。
Zs SpaceSeparator 指示字符是空白字符,它不具有标志符号,但不是控制或格式字符。
Zl LineSeparator 指示字符用于分隔文本各行。
Zp ParagraphSeparator 指示字符用于分隔段落。
Cc Control 指示字符是控制代码,其 Unicode 值是 U+007F,或者位于 U+0000 到 U+001F 或 U+0080 到 U+009F 范围内。
Cf Format 指示字符是格式字符,格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。
Cs Surrogate 指示字符是高代理项还是低代理项。代理项代码值在范围 U+D800 到 U+DFFF 内。
Co PrivateUse 指示字符是专用字符,其 Unicode 值在范围 U+E000 到 U+F8FF 内。
Pc ConnectorPunctuation 指示字符是连接两个字符的连接符标点。
Pd DashPunctuation 指示字符是短划线或连字符。
Ps OpenPunctuation 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的开始字符。
Pe ClosePunctuation 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的封闭字符。
Pi InitialQuotePunctuation 指示字符是开始或前引号。
Pf FinalQuotePunctuation 指示字符是封闭或后引号。
Po OtherPunctuation 指示字符是标点,但它不是连接符标点、短划线标点、开始标点、结束标点、前引号标点或后引号标点。
Sm MathSymbol 指示字符是数学符号,例如“+”或“=”。
Sc CurrencySymbol 指示字符是货币符号。
Sk ModifierSymbol 指示字符是修饰符符号,这指示环绕字符的修改。例如,分数斜线号指示其左侧的数字为分子,右侧的数字为分母。
So OtherSymbol 指示字符是符号,但它不是数学符号、货币符号或修饰符符号。
Cn OtherNotAssigned 指示字符未被分配给任何 Unicode 类别。
 
 备注

此 UnicodeCategory 枚举用于支持 Char 方法,例如 IsUpper(Char)。这种方法可确定指定的字符是否属于特定的 Unicode 通用类别的成员。Unicode 通用类别用于定义字符的一般分类,即将字符指定为字母、十进制数字、分隔符、数学符号、标点符号等类型。

此枚举基于 Unicode 标准 5.0 版。有关更多信息,请参见位于 Unicode Character Database(Unicode 字符数据库)上的“UCD File Format”(UCD 文件格式)和“General Category Values”(通用类别值)副主题。

Unicode 标准定义以下方面:

代理项对是单个抽象字符的编码字符表示形式,此序列包含两个代码单元,第一个单元是高代理项,第二个单元是低代理项。高代理项是范围 U+D800 到 U+DBFF 中的 Unicode 码位,低代理项是范围 U+DC00 到 U+DFFF 中的 Unicode 码位。

组合字符序列是基字符和一个或多个组合字符的组合。代理项对表示基字符或组合字符。组合字符可以是间距字符或非间距字符。在呈现时,间距组合字符自身会占据一个间距位置,而非间距组合字符则不是这样。例如,音调字符就是非间距组合字符之一。

修饰符字母是独立式的间距字符,它与组合字符相似,指示前面字母的修改。

括号是非间距组合字符,它将直到基字符(并包括基字符)的前面的所有字符括起来。

格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。

Unicode 标准定义某些标点符号的若干变体。例如,连字符可以是表示一个连字符的若干代码值之一,如 U+002D(减号连字符)、U+00AD(软连字符)、U+2010(连字符)或 U+2011(不间断连字符)。这同样适用于短划线、空白字符和引号。

Unicode 标准还将代码分配给十进制数字的表示形式,这些表示形式特定于给定的书写符号或语言,例如 U+0030(数字零)和 U+0660(阿拉伯-印度数字零)。

統一碼 5.0.0 版區塊名稱表(Block Names for Unicode 5.0.0)

http://www.geocities.com/chukl000/unicode/unicode5-0-0.html

區塊位置 Block Positons 區塊名稱 Block Names
English Names 中文譯名
0000-007F Basic Latin 基本拉丁字母
0080-00FF Latin-1 Supplement 拉丁字母補充-1
0100-017F Latin Extended-A 拉丁字母擴充-A
0180-024F Latin Extended-B 拉丁字母擴充-B
0250-02AF IPA Extensions 國際音標擴充
02B0-02FF Spacing Modifier Letters 進格修飾字元
0300-036F Combining Diacritical Marks 組合音標附加符號
0370-03FF Greek and Coptic 希臘字母
0400-04FF Cyrillic 西里爾字母
0500-052F Cyrillic Supplement 西里爾字母補充
0530-058F Armenian 亞美尼亞文
0590-05FF Hebrew 希伯來文
0600-06FF Arabic 基本阿拉伯文
0700-074F Syriac 敘利亞文
0750-077F Arabic Supplement 阿拉伯文補充
0780-07BF Thaana 塔納文
07C0-07FF N'Ko  
0900-097F Devanagari 天城體梵文字母
0980-09FF Bengali 孟加拉文
0A00-0A7F Gurmukhi 古爾穆基文
0A80-0AFF Gujarati 古吉拉特文
0B00-0B7F Oriya 奧里亞文
0B80-0BFF Tamil 泰米爾文
0C00-0C7F Telugu 泰盧固文
0C80-0CFF Kannada 卡納達文
0D00-0D7F Malayalam 馬拉亞拉姆文
0D80-0DFF Sinhala 僧伽羅文
0E00-0E7F Thai 泰文
0E80-0EFF Lao 老撾文;寮文
0F00-0FFF Tibetan 藏文
1000-109F Myanmar 緬甸文
10A0-10FF Georgian 格魯吉亞文
1100-11FF Hangul Jamo 諺文字母
1200-137F Ethiopic 埃塞俄比亞文
1380-139F Ethiopic Supplement 埃塞俄比亞文補充
13A0-13FF Cherokee 切羅基文
1400-167F Unified Canadian Aboriginal Syllabics 加拿大土著統一音節文字
1680-169F Ogham 歐甘文
16A0-16FF Runic 北歐古文
1700-171F Tagalog 他加祿文
1720-173F Hanunoo 哈努諾文
1740-175F Buhid 布希德文
1760-177F Tagbanwa 塔格巴努亞文
1780-17FF Khmer 高棉文
1800-18AF Mongolian 蒙古文
1900-194F Limbu 林布文
1950-197F Tai Le 傣哪文;德宏傣文
1980-19DF New Tai Lue 新傣仂文
19E0-19FF Khmer Symbols 高棉符號
1A00-1A1F Buginese 布吉文
1B00-1B7F Balinese 巴厘文
1D00-1D7F Phonetic Extensions 音標擴充
1D80-1DBF Phonetic Extensions Supplement 音標擴充補充
1DC0-1DFF Combining Diacritical Marks Supplement 組合音標附加符號
1E00-1EFF Latin Extended Additional 拉丁字母擴充附加
1F00-1FFF Greek Extended 希臘文擴充
2000-206F General Punctuation 一般標點符號
2070-209F Superscripts and Subscripts 下標及上標
20A0-20CF Currency Symbols 貨幣符號
20D0-20FF Combining Diacritical Marks for Symbols 符號用組合附加符號
2100-214F Letterlike Symbols 似字母符號
2150-218F Number Forms 數字形式
2190-21FF Arrows 箭頭符號
2200-22FF Mathematical Operators 數學運算符號
2300-23FF Miscellaneous Technical 混合專門符號;零雜技術符號
2400-243F Control Pictures 控制圖像
2440-245F Optical Character Recognition 光學字元識別
2460-24FF Enclosed Alphanumerics 圈型字母數字
2500-257F Box Drawing 製表符
2580-259F Block Elements 區塊元件
25A0-25FF Geometric Shapes 幾何形狀
2600-26FF Miscellaneous Symbols 混合什錦符號;零雜符號
2700-27BF Dingbats 什錦符號
27C0-27EF Miscellaneous Mathematical Symbols-A 混合數學符號-A;零雜數學符號-A
27F0-27FF Supplemental Arrows-A 補充性箭頭符號-A
2800-28FF Braille Patterns 盲文;盲人點字
2900-297F Supplemental Arrows-B 補充性箭頭符號-B
2980-29FF Miscellaneous Mathematical Symbols-B 混合數學符號-B;零雜數學符號-B
2A00-2AFF Supplemental Mathematical Operators 補充性數學運算符號
2B00-2BFF Miscellaneous Symbols and Arrows 混合什錦符號和箭頭符號;零雜符號與箭頭
2C00-2C5F Glagolitic 格拉哥爾字母
2C60-2C7F Latin Extended-C 拉丁字母擴充-C
2C80-2CFF Coptic 科普特文
2D00-2D2F Georgian Supplement 格魯吉亞文補充
2D30-2D7F Tifinagh 提非納格字母
2D80-2DDF Ethiopic Extended 埃塞俄比亞文擴充
2E00-2E7F Supplemental Punctuation 補充性標點符號
2E80-2EFF CJK Radicals Supplement 中日韓部首補充
2F00-2FDF Kangxi Radicals 康熙部首
2FF0-2FFF Ideographic Description Characters 漢字結構描述字符
3000-303F CJK Symbols and Punctuation 中日韓符號和標點
3040-309F Hiragana 平假名
30A0-30FF Katakana 片假名
3100-312F Bopomofo 注音符號
3130-318F Hangul Compatibility Jamo 諺文相容字母
3190-319F Kanbun 漢文標註號
31A0-31BF Bopomofo Extended 注音符號擴充
31C0-31EF CJK Strokes 中日韓筆畫部件
31F0-31FF Katakana Phonetic Extensions 片假名音標擴充
3200-32FF Enclosed CJK Letters and Months 括號中日韓字母及月份;圈型中日韓字母及月份
3300-33FF CJK Compatibility 中日韓相容字元
3400-4DBF CJK Unified Ideographs Extension A 中日韓統一表意文字擴充A
4DC0-4DFF Yijing Hexagram Symbols 易經六十四卦象
4E00-9FFF CJK Unified Ideographs 中日韓統一表意文字
A000-A48F Yi Syllables 彝文音節
A490-A4CF Yi Radicals 彝文字母
A700-A71F Modifier Tone Letters 聲調符號
A720-A7FF Latin Extended-D 拉丁字母擴充-D
A800-A82F Syloti Nagri  
A840-A87F Phags-pa 八思巴字母
AC00-D7AF Hangul Syllables 諺文音節
D800-DB7F High Surrogates 高半代用區
DB80-DBFF High Private Use Surrogates 高半專用代用區
DC00-DFFF Low Surrogates 低半代用區
E000-F8FF Private Use Area 專用區
F900-FAFF CJK Compatibility Ideographs 中日韓相容表意文字
FB00-FB4F Alphabetic Presentation Forms 字母變體顯現形式
FB50-FDFF Arabic Presentation Forms-A 阿拉伯文變體顯現形式-A
FE00-FE0F Variation Selectors 字型變換選取器
FE10-FE1F Vertical Forms 豎式標點
FE20-FE2F Combining Half Marks 組合半形標示
FE30-FE4F CJK Compatibility Forms 中日韓相容形式
FE50-FE6F Small Form Variants 小寫變體
FE70-FEFF Arabic Presentation Forms-B 阿拉伯文變體顯現形式-B
FF00-FFEF Halfwidth and Fullwidth Forms 半形及全形字符
FFF0-FFFF Specials 特殊區域
10000-1007F Linear B Syllabary 線形文字B音節文字
10080-100FF Linear B Ideograms 線形文字B表意文字
10100-1013F Aegean Numbers 愛琴數字
10140-1018F Ancient Greek Numbers 古希臘數字
10300-1032F Old Italic 古意大利文
10330-1034F Gothic 哥特文
10380-1039F Ugaritic 烏加里特楔形文字
103A0-103DF Old Persian 古波斯文
10400-1044F Deseret 猶他大學音標
10450-1047F Shavian 肅伯納字母
10480-104AF Osmanya  
10800-1083F Cypriot Syllabary 塞浦路斯音節文字
10900-1091F Phoenician 腓尼基字母
10A00-10A5F Kharoshthi 佉盧字母
12000-123FF Cuneiform 楔形文字
12400-1247F Cuneiform Numbers and Punctuation 楔形文字數字及標點
1D000-1D0FF Byzantine Musical Symbols 東正教音樂符號
1D100-1D1FF Musical Symbols 音樂符號
1D200-1D24F Ancient Greek Musical Notation 古希臘音樂譜記號
1D300-1D35F Tai Xuan Jing Symbols 太玄經符號
1D360-1D37F Counting Rod Numerals 算籌記數式
1D400-1D7FF Mathematical Alphanumeric Symbols 數學用字母數字符號
20000-2A6DF CJK Unified Ideographs Extension B 中日韓統一表意文字擴充B
2F800-2FA1F CJK Compatibility Ideographs Supplement 中日韓相容表意文字補充
E0000-E007F Tags 語言編碼標籤
E0100-E01EF Variation Selectors Supplement 字型變換選取器補充
FFF80-FFFFF Supplementary Private Use Area-A 補充專用區-A
10FF80-10FFFF Supplementary Private Use Area-B 補充專用區-B

标准CJK文字

http://www.unicode.org/Public/UNIDATA/Unihan.html

http://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/

Code point range Block name Release
U+3400..U+4DB5 CJK Unified Ideographs Extension A 3.0
U+4E00..U+9FA5 CJK Unified Ideographs 1.1
U+9FA6..U+9FBB CJK Unified Ideographs 4.1
U+F900..U+FA2D CJK Compatibility Ideographs 1.1
U+FA30..U+FA6A CJK Compatibility Ideographs 3.2
U+FA70..U+FAD9 CJK Compatibility Ideographs 4.1
U+20000..U+2A6D6 CJK Unified Ideographs Extension B 3.1
U+2F800..U+2FA1D CJK Compatibility Supplement 3.1

Unicode类别的更多相关文章

  1. Golang学习 - unicode 包

    ------------------------------------------------------------ const ( MaxRune = '\U0010FFFF' // Unico ...

  2. 一:Go编程语言规范--块、声明、作用域

    1.块 块为一对大括号括住的声明和语句.块 = "{" { 语句 ";" } "}" . 除显式源码块外,还有隐式块: 全域块 包含所有的G ...

  3. Python2.x与3​​.x版本区别

    Python的3​​.0版本,常被称为Python 3000,或简称Py3k.相对于Python的早期版本,这是一个较大的升级. 为了不带入过多的累赘,Python 3.0在设计的时候没有考虑向下相容 ...

  4. 字符、字符串和文本的处理之Char类型

    .Net Framework中处理字符和字符串的主要有以下这么几个类: (1).System.Char类 一基础字符串处理类 (2).System.String类 一处理不可变的字符串(一经创建,字符 ...

  5. Julia - 字符串判断函数

    isascii() 判断是否是 ascii 码,返回 Bool 值 julia> isascii('a') true julia> isascii('α') false julia> ...

  6. asp.net中正则表达式使用

    一.限定符:限定符提供了一种简单方法,用于指定允许特定字符或字符集自身重复出现的次数.限定符始终引用限定符前(左边)的模式,通常是单个字符,除非使用括号创建模式组. (一)非显示限定符 1. *,描述 ...

  7. .NET 5 中的正则引擎性能改进(翻译)

    前言 System.Text.RegularExpressions 命名空间已经在 .NET 中使用了多年,一直追溯到 .NET Framework 1.1.它在 .NET 实施本身的数百个位置中使用 ...

  8. java正则表达式中的POSIX 字符类和Unicode 块和类别的类介绍

    假如现在有一个需求,要你用Java语言来匹配出一个文本里面的所有(英文半角)标点符号,你会怎么写呢?我想大多数人应该是把这些符号都罗列出来, 如: !"#$%&'()*+,-./:; ...

  9. 关于Unicode,字符集,字符编码,每个程序员都应该知道的事

    关于Unicode,字符集,字符编码,每个程序员都应该知道的事 作者:Jack47 李笑来的文章如何判断一个人是否聪明?中提到: 必要.清晰.且准确的概念,是一切思考的基石.所谓思考,很大程度上,就是 ...

随机推荐

  1. 【bzoj3829】[Poi2014]FarmCraft 贪心

    原文地址:http://www.cnblogs.com/GXZlegend/p/6826667.html 题目描述 In a village called Byteville, there are   ...

  2. LeetCode -- Product of Array Except Self My Submissions Question

    Question: Given an array of n integers where n > 1, nums, return an array output such that output ...

  3. axis2实践(一)JAX-WS入门示例

    1. 实例说明 现在大多数的网站都有通知功能(例如,放假通知,网站维护通知等),本实例就是针对于通知,发布两个WebService服务 1)根据供应商编号,状态,发布日期查询通知信息 2)根据编号查询 ...

  4. POJ 2942 Knights of the Round Table 补图+tarjan求点双联通分量+二分图染色+debug

    题面还好,就不描述了 重点说题解: 由于仇恨关系不好处理,所以可以搞补图存不仇恨关系, 如果一个桌子上面的人能坐到一起,显然他们满足能构成一个环 所以跑点双联通分量 求点双联通分量我用的是向栈中pus ...

  5. 【CF Edu 28 C. Four Segments】

    time limit per test 1 second memory limit per test 256 megabytes input standard input output standar ...

  6. ASP.NET Identity 使用 RoleManager 进行角色管理 (VS2013RC)

    注:本文系作者原创,但可随意转载. 最近做一个Web平台系统,系统包含3个角色,“管理员, 企业用户, 评审专家”, 分别有不同的功能.一直以来都是使用微软封装好的Microsoft.AspNet.I ...

  7. AGC023E - Inversion

    Description \(n \le 2*10^5\) 给定限制序列 \(A\) 求满足 \(P_i\le A_i\) 的所有排列中 逆序对个数的和 Solution 考虑知道一个 \(A\) 序列 ...

  8. 汕头市队赛 SRM 09 B 撕书

    B 撕书II-3 SRM 09 背景&&描述 琉璃手头有一黑一白两本魔法书,一本是<缟玛瑙的不在证明>,另一本是<白色相簿1.5>     传说同时打开这两本书 ...

  9. 洛谷 P1343 地震逃生

    P1343地震逃生 题目描述 汶川地震发生时,四川**中学正在上课,一看地震发生,老师们立刻带领x名学生逃跑,整个学校可以抽象地看成一个有向图,图中有n个点,m条边.1号点为教室,n号点为安全地带,每 ...

  10. [ CodeVS冲杯之路 ] P1017

    不充钱,你怎么AC? 题目:http://codevs.cn/problem/1017/ 看到题目最下面有一个喜人的提示 那这就意味着我们不用写高精度了是不是,直接开 long long 存 设 f[ ...