Unicode类别
Unicode 通用类别:
http://msdn.microsoft.com/zh-cn/library/20bw873z(VS.80).aspx
类别 | 说明 |
---|---|
Lu |
字母,大写 |
Ll |
字母,小写 |
Lt |
字母,词首字母大写 |
Lm |
字母,修饰符 |
Lo |
字母,其他 |
Mn |
标记,非间距 |
Mc |
标记,间距组合 |
Me |
标记,封闭 |
Nd |
数字,十进制数 |
Nl |
数字,字母 |
No |
数字,其他 |
Pc |
标点,连接符 |
Pd |
标点,短划线 |
Ps |
标点,开始 |
Pe |
标点,结束 |
Pi |
标点,前引号(根据用途可能表现为类似 Ps 或 Pe) |
Pf |
标点,后引号(根据用途可能表现为类似 Ps 或 Pe) |
Po |
标点,其他 |
Sm |
符号,数学 |
Sc |
符号,货币 |
Sk |
符号,修饰符 |
So |
符号,其他 |
Zs |
分隔符,空白 |
Zl |
分隔符,行 |
Zp |
分隔符,段落 |
Cc |
其他,控制 |
Cf |
其他,格式 |
Cs |
其他,代理项 |
Co |
其他,私用 |
Cn |
其他,未赋值(不存在任何字符具有此属性) |
.NET Framework 提供其他类别,用于表示一组 Unicode 字符类别,如下表所示。
类别 | 表示 |
---|---|
C |
(所有控制字符)Cc、Cf、Cs、Co 和 Cn。 |
L |
(所有字母)Lu、Ll、Lt、Lm 和 Lo。 |
M |
(所有附加符号标记)Mn、Mc 和 Me。 |
N |
(所有数字)Nd、Nl 和 No。 |
P |
(所有标点)Pc、Pd、Ps、Pe、Pi、Pf 和 Po。 |
S |
(所有符号)Sm、Sc、Sk 和 So。 |
Z |
(所有分隔符)Zs、Zl 和 Zp。 |
UnicodeCategory 枚举
http://msdn.microsoft.com/zh-cn/library/system.globalization.unicodecategory.aspx 成员
成员名称 | 说明 | |
---|---|---|
Lu | UppercaseLetter | 指示字符是大写字母。 |
Ll | LowercaseLetter | 指示字符是小写字母。 |
Lt | TitlecaseLetter | 指示字符是词首字母大写字母。 |
Lm | ModifierLetter | 指示字符是修饰符字母,它是独立式的间距字符,指示前面字母的修改。 |
Lo | OtherLetter | 指示字符是字母,但它不是大写字母、小写字母、词首字母大写或修饰符字母。 |
Mn | NonSpacingMark | 指示字符是非间距字符,这指示基字符的修改。 |
Mc | SpacingCombiningMark | 指示字符是间距字符,这指示基字符的修改并影响该基字符的标志符号的宽度。 |
Me | EnclosingMark | 指示字符是封闭符号,封闭符号是非间距组合字符,它环绕直到基字符(并包括基字符)的所有前面的字符。 |
Nd | DecimalDigitNumber | 指示字符是十进制数字,即在范围 0 到 9 内。 |
Nl | LetterNumber | 指示字符是由字母表示的数字,而不是十进制数字,例如,罗马数字 5 由字母“V”表示。 |
No | OtherNumber | 指示字符是数字,但它既不是十进制数字也不是字母数字,例如分数 1/2。 |
Zs | SpaceSeparator | 指示字符是空白字符,它不具有标志符号,但不是控制或格式字符。 |
Zl | LineSeparator | 指示字符用于分隔文本各行。 |
Zp | ParagraphSeparator | 指示字符用于分隔段落。 |
Cc | Control | 指示字符是控制代码,其 Unicode 值是 U+007F,或者位于 U+0000 到 U+001F 或 U+0080 到 U+009F 范围内。 |
Cf | Format | 指示字符是格式字符,格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。 |
Cs | Surrogate | 指示字符是高代理项还是低代理项。代理项代码值在范围 U+D800 到 U+DFFF 内。 |
Co | PrivateUse | 指示字符是专用字符,其 Unicode 值在范围 U+E000 到 U+F8FF 内。 |
Pc | ConnectorPunctuation | 指示字符是连接两个字符的连接符标点。 |
Pd | DashPunctuation | 指示字符是短划线或连字符。 |
Ps | OpenPunctuation | 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的开始字符。 |
Pe | ClosePunctuation | 指示字符是成对的标点符号(例如括号、方括号和大括号)之一的封闭字符。 |
Pi | InitialQuotePunctuation | 指示字符是开始或前引号。 |
Pf | FinalQuotePunctuation | 指示字符是封闭或后引号。 |
Po | OtherPunctuation | 指示字符是标点,但它不是连接符标点、短划线标点、开始标点、结束标点、前引号标点或后引号标点。 |
Sm | MathSymbol | 指示字符是数学符号,例如“+”或“=”。 |
Sc | CurrencySymbol | 指示字符是货币符号。 |
Sk | ModifierSymbol | 指示字符是修饰符符号,这指示环绕字符的修改。例如,分数斜线号指示其左侧的数字为分子,右侧的数字为分母。 |
So | OtherSymbol | 指示字符是符号,但它不是数学符号、货币符号或修饰符符号。 |
Cn | OtherNotAssigned | 指示字符未被分配给任何 Unicode 类别。 |
此 UnicodeCategory 枚举用于支持 Char 方法,例如 IsUpper(Char)。这种方法可确定指定的字符是否属于特定的 Unicode 通用类别的成员。Unicode 通用类别用于定义字符的一般分类,即将字符指定为字母、十进制数字、分隔符、数学符号、标点符号等类型。
此枚举基于 Unicode 标准 5.0 版。有关更多信息,请参见位于 Unicode Character Database(Unicode 字符数据库)上的“UCD File Format”(UCD 文件格式)和“General Category Values”(通用类别值)副主题。
Unicode 标准定义以下方面:
代理项对是单个抽象字符的编码字符表示形式,此序列包含两个代码单元,第一个单元是高代理项,第二个单元是低代理项。高代理项是范围 U+D800 到 U+DBFF 中的 Unicode 码位,低代理项是范围 U+DC00 到 U+DFFF 中的 Unicode 码位。
组合字符序列是基字符和一个或多个组合字符的组合。代理项对表示基字符或组合字符。组合字符可以是间距字符或非间距字符。在呈现时,间距组合字符自身会占据一个间距位置,而非间距组合字符则不是这样。例如,音调字符就是非间距组合字符之一。
修饰符字母是独立式的间距字符,它与组合字符相似,指示前面字母的修改。
括号是非间距组合字符,它将直到基字符(并包括基字符)的前面的所有字符括起来。
格式字符是通常不呈现的字符,但它影响文本布局或文本处理操作。
Unicode 标准定义某些标点符号的若干变体。例如,连字符可以是表示一个连字符的若干代码值之一,如 U+002D(减号连字符)、U+00AD(软连字符)、U+2010(连字符)或 U+2011(不间断连字符)。这同样适用于短划线、空白字符和引号。
Unicode 标准还将代码分配给十进制数字的表示形式,这些表示形式特定于给定的书写符号或语言,例如 U+0030(数字零)和 U+0660(阿拉伯-印度数字零)。
統一碼 5.0.0 版區塊名稱表(Block Names for Unicode 5.0.0)
http://www.geocities.com/chukl000/unicode/unicode5-0-0.html
區塊位置 Block Positons | 區塊名稱 Block Names | |
---|---|---|
English Names | 中文譯名 | |
0000-007F | Basic Latin | 基本拉丁字母 |
0080-00FF | Latin-1 Supplement | 拉丁字母補充-1 |
0100-017F | Latin Extended-A | 拉丁字母擴充-A |
0180-024F | Latin Extended-B | 拉丁字母擴充-B |
0250-02AF | IPA Extensions | 國際音標擴充 |
02B0-02FF | Spacing Modifier Letters | 進格修飾字元 |
0300-036F | Combining Diacritical Marks | 組合音標附加符號 |
0370-03FF | Greek and Coptic | 希臘字母 |
0400-04FF | Cyrillic | 西里爾字母 |
0500-052F | Cyrillic Supplement | 西里爾字母補充 |
0530-058F | Armenian | 亞美尼亞文 |
0590-05FF | Hebrew | 希伯來文 |
0600-06FF | Arabic | 基本阿拉伯文 |
0700-074F | Syriac | 敘利亞文 |
0750-077F | Arabic Supplement | 阿拉伯文補充 |
0780-07BF | Thaana | 塔納文 |
07C0-07FF | N'Ko | |
0900-097F | Devanagari | 天城體梵文字母 |
0980-09FF | Bengali | 孟加拉文 |
0A00-0A7F | Gurmukhi | 古爾穆基文 |
0A80-0AFF | Gujarati | 古吉拉特文 |
0B00-0B7F | Oriya | 奧里亞文 |
0B80-0BFF | Tamil | 泰米爾文 |
0C00-0C7F | Telugu | 泰盧固文 |
0C80-0CFF | Kannada | 卡納達文 |
0D00-0D7F | Malayalam | 馬拉亞拉姆文 |
0D80-0DFF | Sinhala | 僧伽羅文 |
0E00-0E7F | Thai | 泰文 |
0E80-0EFF | Lao | 老撾文;寮文 |
0F00-0FFF | Tibetan | 藏文 |
1000-109F | Myanmar | 緬甸文 |
10A0-10FF | Georgian | 格魯吉亞文 |
1100-11FF | Hangul Jamo | 諺文字母 |
1200-137F | Ethiopic | 埃塞俄比亞文 |
1380-139F | Ethiopic Supplement | 埃塞俄比亞文補充 |
13A0-13FF | Cherokee | 切羅基文 |
1400-167F | Unified Canadian Aboriginal Syllabics | 加拿大土著統一音節文字 |
1680-169F | Ogham | 歐甘文 |
16A0-16FF | Runic | 北歐古文 |
1700-171F | Tagalog | 他加祿文 |
1720-173F | Hanunoo | 哈努諾文 |
1740-175F | Buhid | 布希德文 |
1760-177F | Tagbanwa | 塔格巴努亞文 |
1780-17FF | Khmer | 高棉文 |
1800-18AF | Mongolian | 蒙古文 |
1900-194F | Limbu | 林布文 |
1950-197F | Tai Le | 傣哪文;德宏傣文 |
1980-19DF | New Tai Lue | 新傣仂文 |
19E0-19FF | Khmer Symbols | 高棉符號 |
1A00-1A1F | Buginese | 布吉文 |
1B00-1B7F | Balinese | 巴厘文 |
1D00-1D7F | Phonetic Extensions | 音標擴充 |
1D80-1DBF | Phonetic Extensions Supplement | 音標擴充補充 |
1DC0-1DFF | Combining Diacritical Marks Supplement | 組合音標附加符號 |
1E00-1EFF | Latin Extended Additional | 拉丁字母擴充附加 |
1F00-1FFF | Greek Extended | 希臘文擴充 |
2000-206F | General Punctuation | 一般標點符號 |
2070-209F | Superscripts and Subscripts | 下標及上標 |
20A0-20CF | Currency Symbols | 貨幣符號 |
20D0-20FF | Combining Diacritical Marks for Symbols | 符號用組合附加符號 |
2100-214F | Letterlike Symbols | 似字母符號 |
2150-218F | Number Forms | 數字形式 |
2190-21FF | Arrows | 箭頭符號 |
2200-22FF | Mathematical Operators | 數學運算符號 |
2300-23FF | Miscellaneous Technical | 混合專門符號;零雜技術符號 |
2400-243F | Control Pictures | 控制圖像 |
2440-245F | Optical Character Recognition | 光學字元識別 |
2460-24FF | Enclosed Alphanumerics | 圈型字母數字 |
2500-257F | Box Drawing | 製表符 |
2580-259F | Block Elements | 區塊元件 |
25A0-25FF | Geometric Shapes | 幾何形狀 |
2600-26FF | Miscellaneous Symbols | 混合什錦符號;零雜符號 |
2700-27BF | Dingbats | 什錦符號 |
27C0-27EF | Miscellaneous Mathematical Symbols-A | 混合數學符號-A;零雜數學符號-A |
27F0-27FF | Supplemental Arrows-A | 補充性箭頭符號-A |
2800-28FF | Braille Patterns | 盲文;盲人點字 |
2900-297F | Supplemental Arrows-B | 補充性箭頭符號-B |
2980-29FF | Miscellaneous Mathematical Symbols-B | 混合數學符號-B;零雜數學符號-B |
2A00-2AFF | Supplemental Mathematical Operators | 補充性數學運算符號 |
2B00-2BFF | Miscellaneous Symbols and Arrows | 混合什錦符號和箭頭符號;零雜符號與箭頭 |
2C00-2C5F | Glagolitic | 格拉哥爾字母 |
2C60-2C7F | Latin Extended-C | 拉丁字母擴充-C |
2C80-2CFF | Coptic | 科普特文 |
2D00-2D2F | Georgian Supplement | 格魯吉亞文補充 |
2D30-2D7F | Tifinagh | 提非納格字母 |
2D80-2DDF | Ethiopic Extended | 埃塞俄比亞文擴充 |
2E00-2E7F | Supplemental Punctuation | 補充性標點符號 |
2E80-2EFF | CJK Radicals Supplement | 中日韓部首補充 |
2F00-2FDF | Kangxi Radicals | 康熙部首 |
2FF0-2FFF | Ideographic Description Characters | 漢字結構描述字符 |
3000-303F | CJK Symbols and Punctuation | 中日韓符號和標點 |
3040-309F | Hiragana | 平假名 |
30A0-30FF | Katakana | 片假名 |
3100-312F | Bopomofo | 注音符號 |
3130-318F | Hangul Compatibility Jamo | 諺文相容字母 |
3190-319F | Kanbun | 漢文標註號 |
31A0-31BF | Bopomofo Extended | 注音符號擴充 |
31C0-31EF | CJK Strokes | 中日韓筆畫部件 |
31F0-31FF | Katakana Phonetic Extensions | 片假名音標擴充 |
3200-32FF | Enclosed CJK Letters and Months | 括號中日韓字母及月份;圈型中日韓字母及月份 |
3300-33FF | CJK Compatibility | 中日韓相容字元 |
3400-4DBF | CJK Unified Ideographs Extension A | 中日韓統一表意文字擴充A |
4DC0-4DFF | Yijing Hexagram Symbols | 易經六十四卦象 |
4E00-9FFF | CJK Unified Ideographs | 中日韓統一表意文字 |
A000-A48F | Yi Syllables | 彝文音節 |
A490-A4CF | Yi Radicals | 彝文字母 |
A700-A71F | Modifier Tone Letters | 聲調符號 |
A720-A7FF | Latin Extended-D | 拉丁字母擴充-D |
A800-A82F | Syloti Nagri | |
A840-A87F | Phags-pa | 八思巴字母 |
AC00-D7AF | Hangul Syllables | 諺文音節 |
D800-DB7F | High Surrogates | 高半代用區 |
DB80-DBFF | High Private Use Surrogates | 高半專用代用區 |
DC00-DFFF | Low Surrogates | 低半代用區 |
E000-F8FF | Private Use Area | 專用區 |
F900-FAFF | CJK Compatibility Ideographs | 中日韓相容表意文字 |
FB00-FB4F | Alphabetic Presentation Forms | 字母變體顯現形式 |
FB50-FDFF | Arabic Presentation Forms-A | 阿拉伯文變體顯現形式-A |
FE00-FE0F | Variation Selectors | 字型變換選取器 |
FE10-FE1F | Vertical Forms | 豎式標點 |
FE20-FE2F | Combining Half Marks | 組合半形標示 |
FE30-FE4F | CJK Compatibility Forms | 中日韓相容形式 |
FE50-FE6F | Small Form Variants | 小寫變體 |
FE70-FEFF | Arabic Presentation Forms-B | 阿拉伯文變體顯現形式-B |
FF00-FFEF | Halfwidth and Fullwidth Forms | 半形及全形字符 |
FFF0-FFFF | Specials | 特殊區域 |
10000-1007F | Linear B Syllabary | 線形文字B音節文字 |
10080-100FF | Linear B Ideograms | 線形文字B表意文字 |
10100-1013F | Aegean Numbers | 愛琴數字 |
10140-1018F | Ancient Greek Numbers | 古希臘數字 |
10300-1032F | Old Italic | 古意大利文 |
10330-1034F | Gothic | 哥特文 |
10380-1039F | Ugaritic | 烏加里特楔形文字 |
103A0-103DF | Old Persian | 古波斯文 |
10400-1044F | Deseret | 猶他大學音標 |
10450-1047F | Shavian | 肅伯納字母 |
10480-104AF | Osmanya | |
10800-1083F | Cypriot Syllabary | 塞浦路斯音節文字 |
10900-1091F | Phoenician | 腓尼基字母 |
10A00-10A5F | Kharoshthi | 佉盧字母 |
12000-123FF | Cuneiform | 楔形文字 |
12400-1247F | Cuneiform Numbers and Punctuation | 楔形文字數字及標點 |
1D000-1D0FF | Byzantine Musical Symbols | 東正教音樂符號 |
1D100-1D1FF | Musical Symbols | 音樂符號 |
1D200-1D24F | Ancient Greek Musical Notation | 古希臘音樂譜記號 |
1D300-1D35F | Tai Xuan Jing Symbols | 太玄經符號 |
1D360-1D37F | Counting Rod Numerals | 算籌記數式 |
1D400-1D7FF | Mathematical Alphanumeric Symbols | 數學用字母數字符號 |
20000-2A6DF | CJK Unified Ideographs Extension B | 中日韓統一表意文字擴充B |
2F800-2FA1F | CJK Compatibility Ideographs Supplement | 中日韓相容表意文字補充 |
E0000-E007F | Tags | 語言編碼標籤 |
E0100-E01EF | Variation Selectors Supplement | 字型變換選取器補充 |
FFF80-FFFFF | Supplementary Private Use Area-A | 補充專用區-A |
10FF80-10FFFF | Supplementary Private Use Area-B | 補充專用區-B |
标准CJK文字
http://www.unicode.org/Public/UNIDATA/Unihan.html
http://blog.oasisfeng.com/2006/10/19/full-cjk-unicode-range/
Code point range | Block name | Release |
---|---|---|
U+3400..U+4DB5 | CJK Unified Ideographs Extension A | 3.0 |
U+4E00..U+9FA5 | CJK Unified Ideographs | 1.1 |
U+9FA6..U+9FBB | CJK Unified Ideographs | 4.1 |
U+F900..U+FA2D | CJK Compatibility Ideographs | 1.1 |
U+FA30..U+FA6A | CJK Compatibility Ideographs | 3.2 |
U+FA70..U+FAD9 | CJK Compatibility Ideographs | 4.1 |
U+20000..U+2A6D6 | CJK Unified Ideographs Extension B | 3.1 |
U+2F800..U+2FA1D | CJK Compatibility Supplement | 3.1 |
Unicode类别的更多相关文章
- Golang学习 - unicode 包
------------------------------------------------------------ const ( MaxRune = '\U0010FFFF' // Unico ...
- 一:Go编程语言规范--块、声明、作用域
1.块 块为一对大括号括住的声明和语句.块 = "{" { 语句 ";" } "}" . 除显式源码块外,还有隐式块: 全域块 包含所有的G ...
- Python2.x与3.x版本区别
Python的3.0版本,常被称为Python 3000,或简称Py3k.相对于Python的早期版本,这是一个较大的升级. 为了不带入过多的累赘,Python 3.0在设计的时候没有考虑向下相容 ...
- 字符、字符串和文本的处理之Char类型
.Net Framework中处理字符和字符串的主要有以下这么几个类: (1).System.Char类 一基础字符串处理类 (2).System.String类 一处理不可变的字符串(一经创建,字符 ...
- Julia - 字符串判断函数
isascii() 判断是否是 ascii 码,返回 Bool 值 julia> isascii('a') true julia> isascii('α') false julia> ...
- asp.net中正则表达式使用
一.限定符:限定符提供了一种简单方法,用于指定允许特定字符或字符集自身重复出现的次数.限定符始终引用限定符前(左边)的模式,通常是单个字符,除非使用括号创建模式组. (一)非显示限定符 1. *,描述 ...
- .NET 5 中的正则引擎性能改进(翻译)
前言 System.Text.RegularExpressions 命名空间已经在 .NET 中使用了多年,一直追溯到 .NET Framework 1.1.它在 .NET 实施本身的数百个位置中使用 ...
- java正则表达式中的POSIX 字符类和Unicode 块和类别的类介绍
假如现在有一个需求,要你用Java语言来匹配出一个文本里面的所有(英文半角)标点符号,你会怎么写呢?我想大多数人应该是把这些符号都罗列出来, 如: !"#$%&'()*+,-./:; ...
- 关于Unicode,字符集,字符编码,每个程序员都应该知道的事
关于Unicode,字符集,字符编码,每个程序员都应该知道的事 作者:Jack47 李笑来的文章如何判断一个人是否聪明?中提到: 必要.清晰.且准确的概念,是一切思考的基石.所谓思考,很大程度上,就是 ...
随机推荐
- 第十六篇:django基础
本篇内容 创建程序 程序目录 流程介绍 login实例 一.创建程序 命令行: django-admin startproject sitename. 常用命令: python manage.py r ...
- Icarus Verilog和GTKwave使用简析
Icarus Verilog和GTKwave使用简析 来源 http://blog.csdn.net/husipeng86/article/details/60469543 本文测试文件在window ...
- [bzoj] 3263 陌上花开 洛谷 P3810 三维偏序|| CDQ分治 && CDQ分治讲解
原题 定义一个点比另一个点大为当且仅当这个点的三个值分别大于等于另一个点的三个值.每比一个点大就为加一等级,求每个等级的点的数量. 显然的三维偏序问题,CDQ的板子题. CDQ分治: CDQ分治是一种 ...
- 【BZOJ 2809 dispatching】
Time Limit: 10 Sec Memory Limit: 128 MBSubmit: 4393 Solved: 2246[Submit][Status][Discuss] Descript ...
- Codeforces 932.A Palindromic Supersequence
A. Palindromic Supersequence time limit per test 2 seconds memory limit per test 256 megabytes input ...
- classes could not be found: - android.support.v7.internal.app.WindowDecorActionBar问题的解决方法
转载至----http://my.oschina.net/u/2425146/blog/546649?fromerr=aDYrFDVx.仅作个人收藏使用,有转载的朋友请连续原作者,谢谢 刚刚进入stu ...
- mysql server5.7 找不到my.ini,只有my-default.ini【mysql全局配置文件】
起因是在尝试将csv文件导入mysql的table时,出现如下错误: “The MySQL server is running with the --secure-file-priv option s ...
- 转 linux下cat命令详解
linux下cat命令详解 http://www.cnblogs.com/perfy/archive/2012/07/23/2605550.html 简略版: cat主要有三大功能:1.一次显示整个文 ...
- kvm qemu内幕介绍
转自:http://blog.csdn.net/wj_j2ee/article/details/7978259目录 1 硬件虚拟化技术背景 2 KVM的内部实现概述 2.1 KVM的抽象对象 2.2 ...
- POCO库中文编程参考指南(4)Poco::Net::IPAddress
POCO库中文编程参考指南(4)Poco::Net::IPAddress 作者:柳大·Poechant 博客:Blog.CSDN.net/Poechant 邮箱:zhongchao.ustc#gmai ...