unicode字符集范围

引言
unicode是全世界统一的编码规则，但只规定了各种字符的数字编码（官网：www.unicode.org），具体实现的存储方式有utff-8,utf-16,utf-32等形式,各种形式有不同的存储和与unicode代码的映射规则。

中文字符范围
Unicode CJK 的范围分布在多个区段中，带有 CJK 的区块名中都拥有汉字。但最常用的范围是 U+4E00～U+9FA5，即名
为：CJK Unified Ideographs 的区块，但 U+9FA6～U+9FFF 之间的字符还属于空码，暂时还未定义，但不能保证以后不会被定义。
注1：中文范围 4E00-9FBF：CJK 统一表意符号 (CJK Unified Ideographs)
注2：正则表达式[\u4e00-\u9fa5] 可匹配中文字符，但这种方式并不能根据平台所提供的字符集范围不同而改变。
注3：Unicode 中 U+4E00～U+9FFF 的码表：http://www.unicode.org/charts/PDF/U4E00.pdf
注4：Unicode 码查到所有的字符：http://www.unicode.org/cgi-bin/GetUnihanData.pl

Unicode 编码范围　
　　0000-007F：C0控制符及基本拉丁文 (C0 Control and Basic Latin)
　　0080-00FF：C1控制符及拉丁文补充-1 (C1 Control and Latin 1 Supplement)
　　0100-017F：拉丁文扩展-A (Latin Extended-A)
　　0180-024F：拉丁文扩展-B (Latin Extended-B)
　　0250-02AF：国际音标扩展 (IPA Extensions)
　　02B0-02FF：空白修饰字母 (Spacing Modifiers)
　　0300-036F：结合用读音符号 (Combining Diacritics Marks)
　　0370-03FF：希腊文及科普特文 (Greek and Coptic)
0400-04FF：西里尔字母 (Cyrillic)
　　0500-052F：西里尔字母补充 (Cyrillic Supplement)
　　0530-058F：亚美尼亚语 (Armenian)
　　0590-05FF：希伯来文 (Hebrew)
　　0600-06FF：阿拉伯文 (Arabic)
　　0700-074F：叙利亚文 (Syriac)
　　0750-077F：阿拉伯文补充 (Arabic Supplement)
　　0780-07BF：马尔代夫语 (Thaana)
　　07C0-077F：西非书面语言 (N'Ko)
　　0800-085F：阿维斯塔语及巴列维语 (Avestan and Pahlavi)
　　0860-087F：曼达语（Mandaic）
　　0880-08AF：撒马利亚语 (Samaritan)
　　0900-097F：天城文书 (Devanagari)
　　0980-09FF：孟加拉语 (Bengali)
　　0A00-0A7F：锡克教文 (Gurmukhi)
　　0A80-0AFF：古吉拉特文 (Gujarati)
　　0B00-0B7F：奥里亚文 (Oriya)
　　0B80-0BFF：泰米尔文 (Tamil)
　　0C00-0C7F：泰卢固文 (Telugu)
　　0C80-0CFF：卡纳达文 (Kannada)
　　0D00-0D7F：德拉维族语 (Malayalam)
　　0D80-0DFF：僧伽罗语 (Sinhala)
　　0E00-0E7F：泰文 (Thai)
　　0E80-0EFF：老挝文 (Lao)
　　0F00-0FFF：藏文 (Tibetan)
　　1000-109F：缅甸语 (Myanmar)
　　10A0-10FF：格鲁吉亚语 (Georgian)
　　1100-11FF：朝鲜文 (Hangul Jamo)
　　1200-137F：埃塞俄比亚语 (Ethiopic)
　　1380-139F：埃塞俄比亚语补充 (Ethiopic Supplement)
　　13A0-13FF：切罗基语 (Cherokee)
　　1400-167F：统一加拿大土著语音节 (Unified Canadian Aboriginal Syllabics)
　　1680-169F：欧甘字母 (Ogham)
　　16A0-16FF：如尼文 (Runic)
　　1700-171F：塔加拉语 (Tagalog)
　　1720-173F：哈努诺语（Hanunóo）
　　1740-175F：部希德文字符（Buhid）
　　1760-177F：塔格巴努亚文字符（Tagbanwa）
　　1780-17FF：高棉语 (Khmer)
　　1800-18AF：蒙古文 (Mongolian)
　　18B0-18FF：沙姆（Cham）
　　1900-194F：林布（Limbu）
　　1950-197F：德宏泰语 (Tai Le)
　　1980-19DF：新傣仂语 (New Tai Lue)
　　19E0-19FF：高棉语记号 (Kmer Symbols)
　　1A00-1A1F：布吉文（Buginese）
　　1A20-1A5F：巴达克（Batak）
　　1A80-1AEF：兰纳（Lanna）
　　1B00-1B7F：巴厘语 (Balinese)
　　1B80-1BB0：巽他语 (Sundanese)
　　1BC0-1BFF：杨松录苗文（Pahawh Hmong）
　　1C00-1C4F：雷布查语(Lepcha)
　　1C50-1C7F：桑塔利文（Ol Chiki）
　　1C80-1CDF：曼尼普尔语 (Meithei/Manipuri)
　　1D00-1D7F：语音学扩展 (Phonetic Extensions)
　　1D80-1DBF：语音学扩展补充 (Phonetic ExtensionsSupplement)
　　1DC0-1DFF：结合用读音符号补充 (Combining DiacriticsMarks Supplement)
　　1E00-1EFF：拉丁文扩充附加 (Latin Extended Additional)
　　1F00-1FFF：希腊语扩充 (Greek Extended)
　　2000-206F：常用标点 (General Punctuation)
　　2070-209F：上标及下标 (Superscripts and Subscripts)
　　20A0-20CF：货币符号 (Currency Symbols)
　　20D0-20FF：组合用记号 (Combining Diacritics Marksfor Symbols)
　　2100-214F：字母式符号 (Letterlike Symbols)
　　2150-218F：数字形式 (Number Form)
　　2190-21FF：箭头 (Arrows)
　　2200-22FF：数学运算符 (Mathematical Operator)
　　2300-23FF：杂项工业符号 (Miscellaneous Technical)
　　2400-243F：控制图片 (Control Pictures)
　　2440-245F：光学识别符 (Optical Character Recognition)
　　2460-24FF：封闭式字母数字 (Enclosed Alphanumerics)
　　2500-257F：制表符 (Box Drawing)
　　2580-259F：方块元素 (Block Element)
　　25A0-25FF：几何图形 (Geometric Shapes)
　　2600-26FF：杂项符号 (Miscellaneous Symbols)
　　2700-27BF：印刷符号 (Dingbats)
　　27C0-27EF：杂项数学符号-A (MiscellaneousMathematical Symbols-A)
　　27F0-27FF：追加箭头-A (Supplemental Arrows-A)
　　2800-28FF：盲文点字模型 (Braille Patterns)
　　2900-297F：追加箭头-B (Supplemental Arrows-B)
　　2980-29FF：杂项数学符号-B (MiscellaneousMathematical Symbols-B)
　　2A00-2AFF：追加数学运算符 (Supplemental MathematicalOperator)
　　2B00-2BFF：杂项符号和箭头 (Miscellaneous Symbols andArrows)
　　2C00-2C5F：格拉哥里字母 (Glagolitic)
　　2C60-2C7F：拉丁文扩展-C (Latin Extended-C)
　　2C80-2CFF：古埃及语 (Coptic)
　　2D00-2D2F：格鲁吉亚语补充 (Georgian Supplement)
　　2D30-2D7F：提非纳文 (Tifinagh)
　　2D80-2DDF：埃塞俄比亚语扩展 (Ethiopic Extended)
　　2E00-2E7F：追加标点 (Supplemental Punctuation)
　　2E80-2EFF：CJK 部首补充 (CJK Radicals Supplement)
　　2F00-2FDF：康熙字典部首 (Kangxi Radicals)
　　2FF0-2FFF：表意文字描述符 (Ideographic DescriptionCharacters)
　　3000-303F：CJK 符号和标点 (CJKSymbols and Punctuation)
　　3040-309F：日文平假名 (Hiragana)
　　30A0-30FF：日文片假名 (Katakana)
　　3100-312F：注音字母 (Bopomofo)
　　3130-318F：朝鲜文兼容字母 (Hangul Compatibility Jamo)
　　3190-319F：象形字注释标志 (Kanbun)
　　31A0-31BF：注音字母扩展 (Bopomofo Extended)
　　31C0-31EF：CJK 笔画 (CJK Strokes)
　　31F0-31FF：日文片假名语音扩展 (Katakana PhoneticExtensions)
　　3200-32FF：封闭式 CJK 文字和月份 (Enclosed CJK Letters andMonths)
　　3300-33FF：CJK 兼容 (CJK Compatibility)
　　3400-4DBF：CJK 统一表意符号扩展 A (CJK Unified Ideographs Extension A)
　　4DC0-4DFF：易经六十四卦符号 (Yijing Hexagrams Symbols)
　　4E00-9FBF：CJK 统一表意符号，中文字符 (CJK Unified Ideographs)
　　A000-A48F：彝文音节 (Yi Syllables)
　　A490-A4CF：彝文字根 (Yi Radicals)
　　A500-A61F：瓦伊语（Vai）
　　A660-A6FF：统一加拿大土著语音节补充 (Unified CanadianAboriginal Syllabics Supplement)
　　A700-A71F：声调修饰字母 (Modifier Tone Letters)
　　A720-A7FF：拉丁文扩展-D (Latin Extended-D)
　　A800-A82F：锡尔赫特文（Syloti Nagri）
　　A840-A87F：八思巴字 (Phags-pa)
　　A880-A8DF：索拉什特拉（Saurashtra）
　　A900-A97F：爪哇语 (Javanese)
　　A980-A9DF：查克玛语（Chakma）
　　AA00-AA3F：Varang Kshiti
　　AA40-AA6F：Sorang Sompeng
　　AA80-AADF：尼瓦尔语（Newari）
　　AB00-AB5F：越南傣语 (Vietnam Thai)
　　AB80-ABA0：克耶字母（Kayah Li）
　　AC00-D7AF：朝鲜文音节 (Hangul Syllables)
　　D800-DBFF：高半区UTF-16（High-half zone of UTF-16）
　　DC00-DFFF：低半区UTF-16（Low-half zone of UTF-16）
　　E000-F8FF：自行使用区域 (Private Use Zone)
　　F900-FAFF：CJK 兼容象形文字 (CJK Compatibility Ideographs)
　　FB00-FB4F：字母表达形式 (Alphabetic Presentation Form)
　　FB50-FDFF：阿拉伯表达形式A (Arabic PresentationForm-A)
　　FE00-FE0F：变量选择符 (Variation Selector)
　　FE10-FE1F：竖排形式 (Vertical Forms)
　　FE20-FE2F：组合用半符号(Combining Half Marks)
　　FE30-FE4F：CJK 兼容形式 (CJKCompatibility Forms)
　　FE50-FE6F：小型变体形式 (Small Form Variants)
　　FE70-FEFF：阿拉伯表达形式B (Arabic PresentationForm-B)
　　FF00-FFEF：半型及全型形式 (Halfwidth and FullwidthForm)
　　FFF0-FFFF：特殊 (Specials)
10300..1032F;Old Italic
10330..1034F; Gothic
10400..1044F; Deseret
1D000..1D0FF; Byzantine Musical Symbols
1D100..1D1FF; Musical Symbols
1D400..1D7FF; Mathematical Alphanumeric Symbols
20000..2A6D6; CJK Unified Ideographs Extension B
2F800..2FA1F; CJK Compatibility Ideographs Supplement
E0000..E007F; Tags
F0000..FFFFD;Private Use
100000..10FFFD; Private Use

————————————————
版权声明：本文为CSDN博主「thomashtq」的原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/thomashtq/article/details/39081233

unicode字符集范围的更多相关文章

【JavaScript】浅析javaScript和HTML与unicode字符集的关系
目录结构: // contents structure [-] javaScript和HTML的字符集 javaScript和HTML如何表现unicode字符集参考文章 javaScript和HT ...
Unicode字符集下CString与char *转换（解决中文乱码等）（转）
UniCode 下 CString 转 char* 的方法的文章有很多,但是大部分都是在互相转载,看了那么多资料,仍然没有解决乱码的问题,后来从一个论坛的一条回复里面找到了正确的方法,特此拿出来与大家 ...
zzy:java采用的是16位的Unicode字符集作为编码方式------理解
java语言使用16位的Unicode字符集作为编码方式,是疯狂Java中的原话. 1,编码方式只是针对字符类型的(不包括字符串类,数值类型int等,这些只是在解释[执行]的时候放到Jvm的不同内存块 ...
UNICODE字符集(20140520)
1多字节字符集,如"IT学吧",sizeof内存长度为7,因为前面2个字母各占用一个字节,后面两个汉字各占用2个字节,结尾的\0占用一个字节.strlen即字符串长度的结果为6. ...
Unicode 字符集及UTF-8 UTF-16编码
很久以前发在他处的一篇博文,今天翻出来重新整理了一下 Unicode 字符集共分为 17 个平面(plane), 分别对应 U+xx0000 - U+xxFFFF 的 code points, 其中 ...
Unicode字符集下CString与char *相互转换
经常遇到CString转换char*时只返回第一个字符.原因是因为在Unicode字符集下CString会以Unicode的形式来保存数据,强制类型转换只会返回第一个字符.所以直接转换在基于MBCS的 ...
《windows核心编程系列》二谈谈ANSI和Unicode字符集 .
http://blog.csdn.net/ithzhang/article/details/7916732转载请注明出处!! 第二章:字符和字符串处理使用vc编程时项目-->属性-->常 ...
关于Unicode字符集
最初的unicode编码是固定长度的,16位,也就是2两个字节代表一个字符,这样一共可以表示65536个字符.显然,这样要表示各种语言中所有的字符是远远不够的.Unicode4.0规范考虑到了这种情况 ...
刨根究底字符编码之十——Unicode字符集的字符编码方式CEF
Unicode字符集的字符编码方式CEF 一.字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用 ...
ASCII字符集。扩展ASCII字符集。Unicode字符集分别支持多少个字符？
ASCII字符集.扩展ASCII字符集.Unicode字符集分别支持多少个字符? 256个字符和 65536个字符

随机推荐

scrapy-redis debug视频
前言在上一篇笔记说过会录个视频帮助理解里面的类方法,现在视频来了.只录了debug scheduler.py里面的类方法,还有spiders.py里面的类方法差不多,就不说了,自己动手丰衣足食.限于 ...
spring4.1.8扩展实战之七：控制bean(BeanPostProcessor接口)
本章是<spring4.1.8扩展实战>的第七篇,我们来尝试在容器初始化的时候对bean实例做设置: 原文地址:https://blog.csdn.net/boling_cavalry/a ...
MySQL 服务器性能剖析
这是<高性能 MySQL(第三版)>第三章的读书笔记. 关于服务,常见的问题有: 如何确认服务器是否发挥了最大性能找出执行慢的语句,为何执行慢为何在用户端发生间歇性的停顿.卡死通过性 ...
Marriage Match II 【HDU - 3081】【并查集+二分答案+最大流】
题目链接一开始是想不断的把边插进去,然后再去考虑我们每次都加进去边权为1的边,直到跑到第几次就没法继续跑下去的这样的思路,果不其然的T了. 然后,就是想办法咯,就想到了二分答案. 首先,我们一开始处 ...
Recurrent Neural Network(3):LSTM Basics and 《Inside Out》
下图是Naive RNN的Recurrent Unit示意图,可以看到,在每个时间点t,Recurrent Unit会输出一个隐藏状态ht,对ht加工提取后将产生t时刻的输出yt.而在下一个时间节点t ...
编程语言-Ruby-问题整理
安装 https://github.com/oneclick/rubyinstaller2/releases/tag/RubyInstaller-2.6.0-1
python操作mysql之增删改查
[insert] import MySQLdb conn = MySQLdb.connect(","08day5" ) cur = conn.cursor() #把数据放 ...
JavaScript 高级程序设计（第3版）第一章（js简介）
1.我比js早一年 2.web浏览器是ECMAScript实现的宿主环境之一. 其它实现ECMAScript的宿主环境包括Node和Adobe Flash 3.ECMAScript主要规定js的组成部 ...
mybatis使用Dao和Mapper方式
1.配置jdcp.properties数据库连接文件 #mysql database setting jdbc.type=mysql jdbc.driver=com.mysql.jdbc.Driver ...
python小学堂1
sun=0 start=1 while True: start1=start%2 if start1==1: sun = start + sun elif start1==0: sun=sun-sta ...

unicode字符集范围

unicode字符集范围的更多相关文章

随机推荐

热门专题