Unicode类别
Unicode 通用类别:
http://msdn.microsoft.com/zh-cn/library/20bw873z(VS.80).aspx
类别 | 说明 |
---|---|
Lu |
字母,大写 |
Ll |
字母,小写 |
Lt |
字母,词首字母大写 |
Lm |
字母,修饰符 |
Lo |
字母,其他 |
Mn |
标记,非间距 |
Mc |
标记,间距组合 |
Me |
标记,封闭 |
Nd |
数字,十进制数 |
Nl |
数字,字母 |
No |
数字,其他 |
Pc |
标点,连接符 |
Pd |
标点,短划线 |
Ps |
标点,开始 |
Pe |
标点,结束 |
Pi |
标点,前引号(根据用途可能表现为类似 Ps 或 Pe) |
Pf |
标点,后引号(根据用途可能表现为类似 Ps 或 Pe) |
Po |
标点,其他 |
Sm |
符号,数学 |
Sc |
符号,货币 |
Sk |
符号,修饰符 |
So |
符号,其他 |
Zs |
分隔符,空白 |
Zl |
分隔符,行 |
Zp |
分隔符,段落 |
Cc |
其他,控制 |
Cf |
其他,格式 |
Cs |
其他,代理项 |
Co |
其他,私用 |
Cn |
其他,未赋值(不存在任何字符具有此属性) |
.NET Framework 提供其他类别,用于表示一组 Unicode 字符类别,如下表所示。
类别 | 表示 |
---|---|
C |
(所有控制字符)Cc、Cf、Cs、Co 和 Cn。 |
L |
(所有字母)Lu、Ll、Lt、Lm 和 Lo。 |
M |
(所有附加符号标记)Mn、Mc 和 Me。 |
N |
(所有数字)Nd、Nl 和 No。 |
P |
(所有标点)Pc、Pd、Ps、Pe、Pi、Pf 和 Po。 |
S |
(所有符号)Sm、Sc、Sk 和 So。 |
Z |
(所有分隔符)Zs、Zl 和 Zp。 |
UnicodeCategory 枚举
http://msdn.microsoft.com/zh-cn/library/system.globalization.unicodecategory.aspx 成员
成员名称 | 说明 | |
---|---|---|
Lu | UppercaseLetter | 指示字符是大写字母。 |
Ll | LowercaseLetter | 指示字符是小写字母。 |
Lt | TitlecaseLetter | 指示字符是词首字母大写字母。 |
Lm | ModifierLetter | 指示字符是修饰符字母,它是独立式的间距字符,指示前面字母的修改。 |
Lo | OtherLetter | 指示字符是字母,但它不是大写字母、小写字母、词首字母大写或修饰符字母。 |
Mn | NonSpacingMark | 指示字符是非间距字符,这指示基字符的修改。 |
Mc | SpacingCombiningMark | 指示字符是间距字符,这指示基字符的修改并影响该基字符的标志符号的宽度。 |
Me | EnclosingMark | 指示字符是封闭符号,封闭符号是非间距组合字符,它环绕直到基字符(并包括基字符)的所有前面的字符。 |
Nd | DecimalDigitNumber | 指示字符是十进制数字,即在范围 0 到 9 内。 |
Nl | LetterNumber | 指示字符是由字母表示的数字,而不是十进制数字,例如,罗马数字 5 由字母“V”表示。 |
No | OtherNumber | 指示字符是数字,但它既不是十进制数字也不是字母数字,例如分数 1/2。 |
Zs | SpaceSeparator | 指示字符是空白字符,它不具有标志符号,但不是控制或格式字符。 |
Zl | LineSeparator | 指示字符用于分隔文本各行。 |
Zp | ParagraphSeparator | 指示字符用于分隔段落。 |
Cc | Control | 指示字符是控制代码,其 Unicode 值是 U+007F,或者位于 U+0000 到 U+001F 或 U+0080 到 U+009F 范围内。 |
Cf | Format | 指示字符是格式字符,格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。 |
Cs | Surrogate | 指示字符是高代理项还是低代理项。代理项代码值在范围 U+D800 到 U+DFFF 内。 |
Co | PrivateUse | 指示字符是专用字符,其 Unicode 值在范围 U+E000 到 U+F8FF 内。 |
Pc | ConnectorPunctuation | 指示字符是连接两个字符的连接符标点。 |
Pd | DashPunctuation | 指示字符是短划线或连字符。 |
Ps | OpenPunctuation | 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的开始字符。 |
Pe | ClosePunctuation | 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的封闭字符。 |
Pi | InitialQuotePunctuation | 指示字符是开始或前引号。 |
Pf | FinalQuotePunctuation | 指示字符是封闭或后引号。 |
Po | OtherPunctuation | 指示字符是标点,但它不是连接符标点、短划线标点、开始标点、结束标点、前引号标点或后引号标点。 |
Sm | MathSymbol | 指示字符是数学符号,例如“+”或“=”。 |
Sc | CurrencySymbol | 指示字符是货币符号。 |
Sk | ModifierSymbol | 指示字符是修饰符符号,这指示环绕字符的修改。例如,分数斜线号指示其左侧的数字为分子,右侧的数字为分母。 |
So | OtherSymbol | 指示字符是符号,但它不是数学符号、货币符号或修饰符符号。 |
Cn | OtherNotAssigned | 指示字符未被分配给任何 Unicode 类别。 |
此 UnicodeCategory 枚举用于支持 Char 方法,例如 IsUpper(Char)。这种方法可确定指定的字符是否属于特定的 Unicode 通用类别的成员。Unicode 通用类别用于定义字符的一般分类,即将字符指定为字母、十进制数字、分隔符、数学符号、标点符号等类型。
此枚举基于 Unicode 标准 5.0 版。有关更多信息,请参见位于 Unicode Character Database(Unicode 字符数据库)上的“UCD File Format”(UCD 文件格式)和“General Category Values”(通用类别值)副主题。
Unicode 标准定义以下方面:
代理项对是单个抽象字符的编码字符表示形式,此序列包含两个代码单元,第一个单元是高代理项,第二个单元是低代理项。高代理项是范围 U+D800 到 U+DBFF 中的 Unicode 码位,低代理项是范围 U+DC00 到 U+DFFF 中的 Unicode 码位。
组合字符序列是基字符和一个或多个组合字符的组合。代理项对表示基字符或组合字符。组合字符可以是间距字符或非间距字符。在呈现时,间距组合字符自身会占据一个间距位置,而非间距组合字符则不是这样。例如,音调字符就是非间距组合字符之一。
修饰符字母是独立式的间距字符,它与组合字符相似,指示前面字母的修改。
括号是非间距组合字符,它将直到基字符(并包括基字符)的前面的所有字符括起来。
格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。
Unicode 标准定义某些标点符号的若干变体。例如,连字符可以是表示一个连字符的若干代码值之一,如 U+002D(减号连字符)、U+00AD(软连字符)、U+2010(连字符)或 U+2011(不间断连字符)。这同样适用于短划线、空白字符和引号。
Unicode 标准还将代码分配给十进制数字的表示形式,这些表示形式特定于给定的书写符号或语言,例如 U+0030(数字零)和 U+0660(阿拉伯-印度数字零)。
統一碼 5.0.0 版區塊名稱表(Block Names for Unicode 5.0.0)
http://www.geocities.com/chukl000/unicode/unicode5-0-0.html
區塊位置 Block Positons | 區塊名稱 Block Names | |
---|---|---|
English Names | 中文譯名 | |
0000-007F | Basic Latin | 基本拉丁字母 |
0080-00FF | Latin-1 Supplement | 拉丁字母補充-1 |
0100-017F | Latin Extended-A | 拉丁字母擴充-A |
0180-024F | Latin Extended-B | 拉丁字母擴充-B |
0250-02AF | IPA Extensions | 國際音標擴充 |
02B0-02FF | Spacing Modifier Letters | 進格修飾字元 |
0300-036F | Combining Diacritical Marks | 組合音標附加符號 |
0370-03FF | Greek and Coptic | 希臘字母 |
0400-04FF | Cyrillic | 西里爾字母 |
0500-052F | Cyrillic Supplement | 西里爾字母補充 |
0530-058F | Armenian | 亞美尼亞文 |
0590-05FF | Hebrew | 希伯來文 |
0600-06FF | Arabic | 基本阿拉伯文 |
0700-074F | Syriac | 敘利亞文 |
0750-077F | Arabic Supplement | 阿拉伯文補充 |
0780-07BF | Thaana | 塔納文 |
07C0-07FF | N'Ko | |
0900-097F | Devanagari | 天城體梵文字母 |
0980-09FF | Bengali | 孟加拉文 |
0A00-0A7F | Gurmukhi | 古爾穆基文 |
0A80-0AFF | Gujarati | 古吉拉特文 |
0B00-0B7F | Oriya | 奧里亞文 |
0B80-0BFF | Tamil | 泰米爾文 |
0C00-0C7F | Telugu | 泰盧固文 |
0C80-0CFF | Kannada | 卡納達文 |
0D00-0D7F | Malayalam | 馬拉亞拉姆文 |
0D80-0DFF | Sinhala | 僧伽羅文 |
0E00-0E7F | Thai | 泰文 |
0E80-0EFF | Lao | 老撾文;寮文 |
0F00-0FFF | Tibetan | 藏文 |
1000-109F | Myanmar | 緬甸文 |
10A0-10FF | Georgian | 格魯吉亞文 |
1100-11FF | Hangul Jamo | 諺文字母 |
1200-137F | Ethiopic | 埃塞俄比亞文 |
1380-139F | Ethiopic Supplement | 埃塞俄比亞文補充 |
13A0-13FF | Cherokee | 切羅基文 |
1400-167F | Unified Canadian Aboriginal Syllabics | 加拿大土著統一音節文字 |
1680-169F | Ogham | 歐甘文 |
16A0-16FF | Runic | 北歐古文 |
1700-171F | Tagalog | 他加祿文 |
1720-173F | Hanunoo | 哈努諾文 |
1740-175F | Buhid | 布希德文 |
1760-177F | Tagbanwa | 塔格巴努亞文 |
1780-17FF | Khmer | 高棉文 |
1800-18AF | Mongolian | 蒙古文 |
1900-194F | Limbu | 林布文 |
1950-197F | Tai Le | 傣哪文;德宏傣文 |
1980-19DF | New Tai Lue | 新傣仂文 |
19E0-19FF | Khmer Symbols | 高棉符號 |
1A00-1A1F | Buginese | 布吉文 |
1B00-1B7F | Balinese | 巴厘文 |
1D00-1D7F | Phonetic Extensions | 音標擴充 |
1D80-1DBF | Phonetic Extensions Supplement | 音標擴充補充 |
1DC0-1DFF | Combining Diacritical Marks Supplement | 組合音標附加符號 |
1E00-1EFF | Latin Extended Additional | 拉丁字母擴充附加 |
1F00-1FFF | Greek Extended | 希臘文擴充 |
2000-206F | General Punctuation | 一般標點符號 |
2070-209F | Superscripts and Subscripts | 下標及上標 |
20A0-20CF | Currency Symbols | 貨幣符號 |
20D0-20FF | Combining Diacritical Marks for Symbols | 符號用組合附加符號 |
2100-214F | Letterlike Symbols | 似字母符號 |
2150-218F | Number Forms | 數字形式 |
2190-21FF | Arrows | 箭頭符號 |
2200-22FF | Mathematical Operators | 數學運算符號 |
2300-23FF | Miscellaneous Technical | 混合專門符號;零雜技術符號 |
2400-243F | Control Pictures | 控制圖像 |
2440-245F | Optical Character Recognition | 光學字元識別 |
2460-24FF | Enclosed Alphanumerics | 圈型字母數字 |
2500-257F | Box Drawing | 製表符 |
2580-259F | Block Elements | 區塊元件 |
25A0-25FF | Geometric Shapes | 幾何形狀 |
2600-26FF | Miscellaneous Symbols | 混合什錦符號;零雜符號 |
2700-27BF | Dingbats | 什錦符號 |
27C0-27EF | Miscellaneous Mathematical Symbols-A | 混合數學符號-A;零雜數學符號-A |
27F0-27FF | Supplemental Arrows-A | 補充性箭頭符號-A |
2800-28FF | Braille Patterns | 盲文;盲人點字 |
2900-297F | Supplemental Arrows-B | 補充性箭頭符號-B |
2980-29FF | Miscellaneous Mathematical Symbols-B | 混合數學符號-B;零雜數學符號-B |
2A00-2AFF | Supplemental Mathematical Operators | 補充性數學運算符號 |
2B00-2BFF | Miscellaneous Symbols and Arrows | 混合什錦符號和箭頭符號;零雜符號與箭頭 |
2C00-2C5F | Glagolitic | 格拉哥爾字母 |
2C60-2C7F | Latin Extended-C | 拉丁字母擴充-C |
2C80-2CFF | Coptic | 科普特文 |
2D00-2D2F | Georgian Supplement | 格魯吉亞文補充 |
2D30-2D7F | Tifinagh | 提非納格字母 |
2D80-2DDF | Ethiopic Extended | 埃塞俄比亞文擴充 |
2E00-2E7F | Supplemental Punctuation | 補充性標點符號 |
2E80-2EFF | CJK Radicals Supplement | 中日韓部首補充 |
2F00-2FDF | Kangxi Radicals | 康熙部首 |
2FF0-2FFF | Ideographic Description Characters | 漢字結構描述字符 |
3000-303F | CJK Symbols and Punctuation | 中日韓符號和標點 |
3040-309F | Hiragana | 平假名 |
30A0-30FF | Katakana | 片假名 |
3100-312F | Bopomofo | 注音符號 |
3130-318F | Hangul Compatibility Jamo | 諺文相容字母 |
3190-319F | Kanbun | 漢文標註號 |
31A0-31BF | Bopomofo Extended | 注音符號擴充 |
31C0-31EF | CJK Strokes | 中日韓筆畫部件 |
31F0-31FF | Katakana Phonetic Extensions | 片假名音標擴充 |
3200-32FF | Enclosed CJK Letters and Months | 括號中日韓字母及月份;圈型中日韓字母及月份 |
3300-33FF | CJK Compatibility | 中日韓相容字元 |
3400-4DBF | CJK Unified Ideographs Extension A | 中日韓統一表意文字擴充A |
4DC0-4DFF | Yijing Hexagram Symbols | 易經六十四卦象 |
4E00-9FFF | CJK Unified Ideographs | 中日韓統一表意文字 |
A000-A48F | Yi Syllables | 彝文音節 |
A490-A4CF | Yi Radicals | 彝文字母 |
A700-A71F | Modifier Tone Letters | 聲調符號 |
A720-A7FF | Latin Extended-D | 拉丁字母擴充-D |
A800-A82F | Syloti Nagri | |
A840-A87F | Phags-pa | 八思巴字母 |
AC00-D7AF | Hangul Syllables | 諺文音節 |
D800-DB7F | High Surrogates | 高半代用區 |
DB80-DBFF | High Private Use Surrogates | 高半專用代用區 |
DC00-DFFF | Low Surrogates | 低半代用區 |
E000-F8FF | Private Use Area | 專用區 |
F900-FAFF | CJK Compatibility Ideographs | 中日韓相容表意文字 |
FB00-FB4F | Alphabetic Presentation Forms | 字母變體顯現形式 |
FB50-FDFF | Arabic Presentation Forms-A | 阿拉伯文變體顯現形式-A |
FE00-FE0F | Variation Selectors | 字型變換選取器 |
FE10-FE1F | Vertical Forms | 豎式標點 |
FE20-FE2F | Combining Half Marks | 組合半形標示 |
FE30-FE4F | CJK Compatibility Forms | 中日韓相容形式 |
FE50-FE6F | Small Form Variants | 小寫變體 |
FE70-FEFF | Arabic Presentation Forms-B | 阿拉伯文變體顯現形式-B |
FF00-FFEF | Halfwidth and Fullwidth Forms | 半形及全形字符 |
FFF0-FFFF | Specials | 特殊區域 |
10000-1007F | Linear B Syllabary | 線形文字B音節文字 |
10080-100FF | Linear B Ideograms | 線形文字B表意文字 |
10100-1013F | Aegean Numbers | 愛琴數字 |
10140-1018F | Ancient Greek Numbers | 古希臘數字 |
10300-1032F | Old Italic | 古意大利文 |
10330-1034F | Gothic | 哥特文 |
10380-1039F | Ugaritic | 烏加里特楔形文字 |
103A0-103DF | Old Persian | 古波斯文 |
10400-1044F | Deseret | 猶他大學音標 |
10450-1047F | Shavian | 肅伯納字母 |
10480-104AF | Osmanya | |
10800-1083F | Cypriot Syllabary | 塞浦路斯音節文字 |
10900-1091F | Phoenician | 腓尼基字母 |
10A00-10A5F | Kharoshthi | 佉盧字母 |
12000-123FF | Cuneiform | 楔形文字 |
12400-1247F | Cuneiform Numbers and Punctuation | 楔形文字數字及標點 |
1D000-1D0FF | Byzantine Musical Symbols | 東正教音樂符號 |
1D100-1D1FF | Musical Symbols | 音樂符號 |
1D200-1D24F | Ancient Greek Musical Notation | 古希臘音樂譜記號 |
1D300-1D35F | Tai Xuan Jing Symbols | 太玄經符號 |
1D360-1D37F | Counting Rod Numerals | 算籌記數式 |
1D400-1D7FF | Mathematical Alphanumeric Symbols | 數學用字母數字符號 |
20000-2A6DF | CJK Unified Ideographs Extension B | 中日韓統一表意文字擴充B |
2F800-2FA1F | CJK Compatibility Ideographs Supplement | 中日韓相容表意文字補充 |
E0000-E007F | Tags | 語言編碼標籤 |
E0100-E01EF | Variation Selectors Supplement | 字型變換選取器補充 |
FFF80-FFFFF | Supplementary Private Use Area-A | 補充專用區-A |
10FF80-10FFFF | Supplementary Private Use Area-B | 補充專用區-B |
标准CJK文字
http://www.unicode.org/Public/UNIDATA/Unihan.html
http://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/
Code point range | Block name | Release |
---|---|---|
U+3400..U+4DB5 | CJK Unified Ideographs Extension A | 3.0 |
U+4E00..U+9FA5 | CJK Unified Ideographs | 1.1 |
U+9FA6..U+9FBB | CJK Unified Ideographs | 4.1 |
U+F900..U+FA2D | CJK Compatibility Ideographs | 1.1 |
U+FA30..U+FA6A | CJK Compatibility Ideographs | 3.2 |
U+FA70..U+FAD9 | CJK Compatibility Ideographs | 4.1 |
U+20000..U+2A6D6 | CJK Unified Ideographs Extension B | 3.1 |
U+2F800..U+2FA1D | CJK Compatibility Supplement | 3.1 |
Unicode类别的更多相关文章
- Golang学习 - unicode 包
------------------------------------------------------------ const ( MaxRune = '\U0010FFFF' // Unico ...
- 一:Go编程语言规范--块、声明、作用域
1.块 块为一对大括号括住的声明和语句.块 = "{" { 语句 ";" } "}" . 除显式源码块外,还有隐式块: 全域块 包含所有的G ...
- Python2.x与3.x版本区别
Python的3.0版本,常被称为Python 3000,或简称Py3k.相对于Python的早期版本,这是一个较大的升级. 为了不带入过多的累赘,Python 3.0在设计的时候没有考虑向下相容 ...
- 字符、字符串和文本的处理之Char类型
.Net Framework中处理字符和字符串的主要有以下这么几个类: (1).System.Char类 一基础字符串处理类 (2).System.String类 一处理不可变的字符串(一经创建,字符 ...
- Julia - 字符串判断函数
isascii() 判断是否是 ascii 码,返回 Bool 值 julia> isascii('a') true julia> isascii('α') false julia> ...
- asp.net中正则表达式使用
一.限定符:限定符提供了一种简单方法,用于指定允许特定字符或字符集自身重复出现的次数.限定符始终引用限定符前(左边)的模式,通常是单个字符,除非使用括号创建模式组. (一)非显示限定符 1. *,描述 ...
- .NET 5 中的正则引擎性能改进(翻译)
前言 System.Text.RegularExpressions 命名空间已经在 .NET 中使用了多年,一直追溯到 .NET Framework 1.1.它在 .NET 实施本身的数百个位置中使用 ...
- java正则表达式中的POSIX 字符类和Unicode 块和类别的类介绍
假如现在有一个需求,要你用Java语言来匹配出一个文本里面的所有(英文半角)标点符号,你会怎么写呢?我想大多数人应该是把这些符号都罗列出来, 如: !"#$%&'()*+,-./:; ...
- 关于Unicode,字符集,字符编码,每个程序员都应该知道的事
关于Unicode,字符集,字符编码,每个程序员都应该知道的事 作者:Jack47 李笑来的文章如何判断一个人是否聪明?中提到: 必要.清晰.且准确的概念,是一切思考的基石.所谓思考,很大程度上,就是 ...
随机推荐
- 【bzoj3829】[Poi2014]FarmCraft 贪心
原文地址:http://www.cnblogs.com/GXZlegend/p/6826667.html 题目描述 In a village called Byteville, there are ...
- LeetCode -- Product of Array Except Self My Submissions Question
Question: Given an array of n integers where n > 1, nums, return an array output such that output ...
- axis2实践(一)JAX-WS入门示例
1. 实例说明 现在大多数的网站都有通知功能(例如,放假通知,网站维护通知等),本实例就是针对于通知,发布两个WebService服务 1)根据供应商编号,状态,发布日期查询通知信息 2)根据编号查询 ...
- POJ 2942 Knights of the Round Table 补图+tarjan求点双联通分量+二分图染色+debug
题面还好,就不描述了 重点说题解: 由于仇恨关系不好处理,所以可以搞补图存不仇恨关系, 如果一个桌子上面的人能坐到一起,显然他们满足能构成一个环 所以跑点双联通分量 求点双联通分量我用的是向栈中pus ...
- 【CF Edu 28 C. Four Segments】
time limit per test 1 second memory limit per test 256 megabytes input standard input output standar ...
- ASP.NET Identity 使用 RoleManager 进行角色管理 (VS2013RC)
注:本文系作者原创,但可随意转载. 最近做一个Web平台系统,系统包含3个角色,“管理员, 企业用户, 评审专家”, 分别有不同的功能.一直以来都是使用微软封装好的Microsoft.AspNet.I ...
- AGC023E - Inversion
Description \(n \le 2*10^5\) 给定限制序列 \(A\) 求满足 \(P_i\le A_i\) 的所有排列中 逆序对个数的和 Solution 考虑知道一个 \(A\) 序列 ...
- 汕头市队赛 SRM 09 B 撕书
B 撕书II-3 SRM 09 背景&&描述 琉璃手头有一黑一白两本魔法书,一本是<缟玛瑙的不在证明>,另一本是<白色相簿1.5> 传说同时打开这两本书 ...
- 洛谷 P1343 地震逃生
P1343地震逃生 题目描述 汶川地震发生时,四川**中学正在上课,一看地震发生,老师们立刻带领x名学生逃跑,整个学校可以抽象地看成一个有向图,图中有n个点,m条边.1号点为教室,n号点为安全地带,每 ...
- [ CodeVS冲杯之路 ] P1017
不充钱,你怎么AC? 题目:http://codevs.cn/problem/1017/ 看到题目最下面有一个喜人的提示 那这就意味着我们不用写高精度了是不是,直接开 long long 存 设 f[ ...