各种语系的unicode对应以及local编码方式
链接:http://www.doc88.com/p-801578373970.html
一.英文
Unicode范围: 0041-005A, 0061-007A (若含数字与符号,则为0021-007E)
locale编码: ANSI
1. ANSI
HTML charset: us-ascii
RTF charset: 0
编码方式: 41-5A, 61-7A (若含数字与符号,则为21-7E)
二.中文
Unicode范围: 2E80-2FDF, 3400-4DBF, 4E00-9FFF
备注:F900-FAFF的相容型中文字码,应转至一般的中文字码处理,31A0-31BF则为注音符号表
locale编码: 繁体中文有BIG5, CNS, 简体中文为GB
1.BIG5
HTML charset: big5
RTF charset: 136
编码方式: 双byte语系, byte 1范围为A1-FE, byte 2范围为40-7E, A1-FE
备注:big5+目前几乎无人使用,故省略不提
2.CNS
HTML charset: 无 (应为euc-tw或iso-2022-cn, 但IE并不支援)
RTF charset: 无
编码方式: 多byte语系
byte 1范围为A1-FE时为2 byte编码, byte 2范围为A1-FE
byte 1为8E时, 为4 byte编码, byte 2范围为A1-B0, byte 3与byte 4范围均为A1-FE
备注: 4 byte编码时, byte 2为A1与2 byte编码之字码相同 (即第1字面), CNS目前只使用了7个字面, 因此byte 2实际使用范围为A1-A7, 早期第15字面有放了一些字码, 后来都已编入前7个字面内了
3.GB
HTML charset: gb2312, gbk, euc-cn
RTF charset: 134
编码方式: 双byte语系, byte 1范围为81-FE, byte 2范围为40-7E, 80-FE
三.日文
Unicode范围: 3040-30FF, 31F0-31FF(混用中文字码)
备注:FF00-FFEF有半形日文,应转至一般日文字码处理
locale编码: Shift-JIS, EUC-JP
1.Shift-JIS
HTML charset: shift_jis, x-sjis, iso-2022-jp
RTF charset: 128
编码方式: 单/双byte语系
byte 1范围为A1-DF时为1 byte编码
byte 1范围为81-9F, E0-EF时为2 byte编码, byte 2范围为40-7E, 80-FC
2.EUC-JP
HTML charset: euc-jp, x-euc-jp
RTF charset: 无
编码方式: 多byte语系
byte 1为8E时, 为2 byte编码, byte 2范围为A1-DF
byte 1范围为A1-FE时, 为2 byte编码, byte 2范围为A1-FE
byte 1为8F时为3 byte编码, byte 2与byte 3范围均为A1-FE
备注: IE不支援3 byte编码部份
四.韩文
Unicode范围: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字码)
备注:FF00-FFEF有半形韩文,应转至一般韩文字码处理
locale编码: Johab, EUC-KR
1.Johab
HTML charset: johab
RTF charset: 130
编码方式: 双byte语系
byte 1范围为84-D3时, byte 2范围为41-7E, 81-FE
byte 1范围为D8-DE, E0-FE时, byte 2范围为31-7E, 91-FE
2.EUC-KR
HTML charset: euc-kr, iso-2022-kr
RTF charset: 129
编码方式: 双byte语系, byte 1范围为A1-FE, byte 2范围为A1-FE
五.阿拉伯文
Unicode范围: 0600-06FF, 0750-077F
locale编码: Windows
1.Windows
HTML charset: windows-1256
RTF charset: 178
编码方式: 1 byte语系
六.泰文
Unicode范围: 0E00-0E7F
locale编码: Windows
1.Windows
HTML charset: windows-874
RTF charset: 222
编码方式: 1 byte语系
七.俄文
Unicode范围: 0400-052F (西里尔文)
locale编码: Windows, ISO, KOI8-U, KOI8-R
1.Windows
HTML charset: windows-1251
RTF charset: 204
编码方式: 1 byte语系
2.ISO
HTML charset: iso-8859-5
RTF charset: 无
编码方式: 1 byte语系
3.KOI8-U
HTML charset: koi8-u
RTF charset: 无
编码方式: 1 byte语系
4.KOI8-R
HTML charset: koi8-r
RTF charset: 无
编码方式: 1 byte语系
八.德文/法文
Unicode范围: 00C0-00FF(混用英文字母)
备注:字母上面有2点者为德文, 字母上面有重音符号者为法文
locale编码: ANSI
1.ANSI
HTML charset: iso-8859-1, windows-1252
RTF charset: 0
编码方式: 1 byte语系
九.印尼文/马来西亚文
Unicode范围: 同英文, 为拼音语系
locale编码: 同英文
十.其他
希腊文,土耳其文,希伯来文,中欧拉丁语文,越南文等尚在研究中...
十.中欧语系
Unicode范围(拉丁语文): 00C0-02AF, 1E00-1EFF(混用英文)
locale编码: Windows, ISO
1.Windows
HTML charset: windows-1250
RTF charset: 238
编码方式: 1 byte语系
2.ISO
HTML charset: iso-8859-2
RTF charset: 无
编码方式: 1 byte语系
十一.希腊文
Unicode范围: 0370-03FF, 1F00-1FFF, 2C80-2CFF
locale编码: Windows
1.Windows
HTML charset: windows-1253, iso8859-7 (后者IE不支援)
RTF charset: 161
编码方式: 1 byte语系
十二.希伯来文
Unicode范围: 0590-05FF
locale编码: Windows
1.Windows
HTML charset: windows-1255, iso8859-8 (后者IE不支援)
RTF charset: 177
编码方式: 1 byte语系
十三.土耳其文
Unicode范围: 同拉丁语文(混用英文)
locale编码: Windows
1.Windows
HTML charset: windows-1254, iso8859-9 (后者IE不支援)
RTF charset: 162
编码方式: 1 byte语系
*** Unicode语系字码分布表
英文 0041-005A, 0061-007A
中文 2E80-2FDF, 3100-312F, 3400-4DBF, 4E00-9FFF, F900-FAFF
日文 3040-30FF, 31F0-31FF
韩文 1100-11FF, 3130-318F, AC00-D7AF
泰文 0E00-0E7F
寮文 0E80-0EFF
藏文 0F00-0FFF
彝文 A000-A4CF
蒙古文 1800-18AF
缅甸文 1000-109F
高棉文 1780-17FF
拉丁文(Latin) 00C0-02AF, 1E00-1EFF
希腊文(Greek) 0370-03FF, 1F00-1FFF, 2C80-2CFF
希伯来文 (Hebrew) 0590-05FF
阿拉伯文(Arabic) 0600-06FF, 0750-077F
叙利亚文(Syriac) 0700-074F
西里尔文(Cyrillic), 0400-052F
亚美尼亚文(Armenian) 0530-058F
孟加拉文(Bengali) 0980-09FF
僧伽罗文(Sinhala,斯里兰卡文) 0D80-0DFF
乔治亚文(Georgian,英国古文) 10A0-10FF, 2D00-2D2F
欧甘文(Ogham,爱尔兰文) 1680-169F
如尼文(Runic,北欧古文) 16A0-16FF
塔纳文(Thaana,一种印度文) 0780-07BF
比哈文(Syloti Nagri,一种印度文) A800-A82F
林布文(Limbu,一种印度文) 1900-194F
布吉文(Buginese,一种印度文) 1A00-1A1F
奥里雅文(Oriya,一种印度文) 0B00-0B7F
泰米尔文(Tamil,一种印度文) 0B80-0BFF
泰卢固文(Telugu,一种印度文) 0C00-0C7F
卡纳达文(Kannada,一种印度文) 0C80-0CFF
天城体梵文(Devanagari,一种印度文) 0900-097F
古尔穆基文(Gurmukhi,一种印度文) 0A00-0A7F
古吉拉特文(Gujarati,一种印度文) 0A80-0AFF
马拉雅拉姆文(Malayalam,一种印度文) 0D00-0D7F
他加禄文(Tagalog,一种菲律宾文) 1700-171F
汉奴劳文(Hanunoo,一种菲律宾文) 1720-173F
Buhid(一种菲律宾文) 1740-175F
Tagbanwa(一种菲律宾文) 1760-177F
彻罗基文(Cherokee,美国印弟安文) 13A0-13FF
Tai Le(中缅边境民族文) 1950-197F
新傣文(中国少数民族文) 1980-19DF
格拉哥里文(Glagolitic,一种斯拉夫文) 2C00-2C5F
衣索比亚文(Ethiopic) 1200-139F, 2D80-2DDF
提非纳文(Tifinagh,一种衣索匹亚文) 2D30-2D7F
*** Unicode字码分布表
0000-007F C0 Control and Basic Latin, 标准ANSI字元
0080-00FF C1 Control and Latin-1 Supplement, 控制码与拉丁文
0100-024F Latin Extended, 拉丁文
0250-02AF IPA Extensions, 拉丁文
02B0-02FF Spacing Modifier Letters, 符号
0300-036F Combining Diacritical Marks, 组合记号
0370-03FF Greek and Coptic, 希腊文与科普特文
0400-052F Cyrillic, 西里尔文
0530-058F Armenian, 亚美尼亚文
0590-05FF Hebrew, 希伯来文
0600-06FF Arabic, 阿拉伯文
0700-074F Syriac, 叙利亚文
0750-077F Arabic Supplement, 阿拉伯文
0780-07BF Thaana, 塔纳文 (一种印度文)
07C0-07FF 保留
0900-097F Devanagari, 天城体梵文 (一种印度文)
0980-09FF Bengali, 孟加拉文
0A00-0A7F Gurmukhi, 古尔穆基文 (一种印度文)
0A80-0AFF Gujarati, 古吉拉特文 (一种印度文)
0B00-0B7F Oriya, 奥里雅文 (一种印度文)
0B80-0BFF Tamil, 泰米尔文 (一种印度文)
0C00-0C7F Telugu, 泰卢固文 (一种印度文)
0C80-0CFF Kannada, 卡纳达文 (一种印度文)
0D00-0D7F Malayalam, 马拉雅拉姆文 (一种印度文)
0D80-0DFF Sinhala, 僧伽罗文 (斯里兰卡文)
0E00-0E7F Thai, 泰文
0E80-0EFF Lao, 寮文
0F00-0FFF Tibetan, 藏文
1000-109F Myanmar, 缅甸文
10A0-10FF Georgian, 乔治亚文 (英国古文)
1100-11FF Hangul Jamo, 韩文
1200-139F Ethiopic, 衣索比亚文
13A0-13FF Cherokee, 彻罗基文 (美国印弟安文)
1400-167F Unified Canadian Aboriginal Syllabics, 加拿大土语音节符号
1680-169F Ogham, 欧甘文 (爱尔兰文)
16A0-16FF Runic, 如尼文 (北欧古文)
1700-171F Tagalog, 他加禄文 (一种菲律宾文)
1720-173F Hanunoo, 汉奴劳文 (一种菲律宾文)
1740-175F Buhid, (一种菲律宾文)
1760-177F Tagbanwa, (一种菲律宾文)
1780-17FF Khmer, 高棉文
1800-18AF Mongolian, 蒙古文
18B0-18FF 保留
1900-194F Limbu, 林布文 (一种印度文)
1950-197F Tai Le, (中缅边境民族文)
1980-19DF New Tai Lue, 新傣文 (中国少数民族文)
19E0-19FF Khmer Symbols, 高棉文符号
1A00-1A1F Buginese, 布吉文 (一种印度文)
1A20-1CFF 保留
1D00-1DBF Phonetic Extensions, 音标符号
1DC0-1DFF Combining Diacritical Marks Supplement, 组合记号
1E00-1EFF Latin Extended Additional, 拉丁文
1F00-1FFF Greek Extended, 希腊文
2000-206F General Punctuation, 标点符号
2070-209F Superscripts and Subscripts, 上下标符号
20A0-20CF Currency Symbols, 货币符号
20D0-20FF Combining Diacritical Marks for Symbols, 符号用组合记号
2100-214F Letterlike Symbols, 似字母符号
2150-218F Number Forms, 数字符号
2190-21FF Arrows, 箭头符号
2200-22FF Mathematical Operators, 数学运算符号
2300-23FF Miscellaneous Technical, 特殊符号
2400-243F Control Pictures, 控制记号
2440-245F Optical Character Recognition, 光学字元识别符号
2460-24FF Enclosed Alphanumerics, 括号字母数字符号
2500-257F Box Drawing, 表格符号
2580-259F Block Elements, 区块符号
25A0-25FF Geometric Shapes, 几何图形符号
2600-26FF Miscellaneous Symbols, 其他符号
2700-27BF Dingbats, 前导符号
27C0-27EF Miscellaneous Mathematical Symbols-A, 数学符号
27F0-27FF Supplemental Arrows-A, 箭头符号
2800-28FF Braille Patterns, 盲文 (点字符号)
2900-297F Supplemental Arrows-B, 箭头符号
2980-29FF Miscellaneous Mathematical Symbols-B, 数学符号
2A00-2AFF Supplemental Mathematical Operators, 数学运算符号
2B00-2BFF Miscellaneous Symbols and Arrows, 箭头符号
2C00-2C5F Glagolitic, 格拉哥里文 (一种斯拉夫文)
2C80-2CFF Coptic, 科普特文 (一种埃及文)
2D00-2D2F Georgian Supplement, 乔治亚文 (英国古文)
2D30-2D7F Tifinagh, 提非纳文 (一种衣索匹亚文)
2D80-2DDF Ethiopic Extended, 衣索匹亚文
2DE0-2DFF 保留
2E00-2E7F Supplemental Punctuation, 标点符号
2E80-2EFF CJK Radicals Supplement, 中文部首
2F00-2FDF Kangxi Radicals, 中文部首
2FF0-2FFF Ideographic Description Characters, 汉字结构描述符号
3000-303F CJK Symbols and Punctuation, 中日韩符号
3040-309F Hiragana, 日文平假名
30A0-30FF Katakana, 日文片假名
3100-312F Bopomofo, 中文注音符号
3130-318F Hangul Compatibility Jamo, 韩文
3190-319F Kanbun, 中文上下标
31A0-31BF Bopomofo Extended, 中文注音符号
31C0-31EF CJK Strokes, 中文笔划符号
31F0-31FF Katakana Phonetic Extensions, 日文片假名
3200-33FF Enclosed CJK Letters and Months, 中日韩组合符号字
3400-4DBF CJK Unified Ideographs Extension A, 中文
4DC0-4DFF Yijing Hexagram Symbols, 易经符号
4E00-9FFF CJK Unified Ideographs, 中文
A000-A4CF Yi, 彝文
A4D0-A6FF 保留
A700-A71F Modifier Tone Letters, 音标符号
A720-A7FF 保留
A800-A82F Syloti Nagri, 比哈文 (一种印度文)
A830-A8FF 保留
AC00-D7AF Hangul Syllables, 韩文
D780-D7FF 保留
D800-DFFF Surrogates, UTF-16相容保留区
E000-F8FF Private Use Area, 自造字专用区
F900-FAFF CJK Compatibility Ideographs, 中文
FB00-FB4F Alphabetic Presentation Forms, 字母变体显现形式
FB50-FDFF Arabic Presentation Forms-A, 阿拉伯文变体显现形式
FE00-FE0F Variation Selectors, 字型变换选取器符号
FE10-FE1F Vertical Forms, 中文直排符号
FE20-FE2F Combining Half Marks, 组合记号
FE30-FE4F CJK Compatibility Forms, 中文直排符号
FE50-FE6F Small Form Variants, 标点符号
FE70-FEFF Arabic Presentation Forms-B, 阿拉伯文变体显现形式
FF00-FFEF Halfwidth and Fullwidth Forms, 半形及全形字符
FFF0-FFFF Specials, 特殊保留区
各种语系的unicode对应以及local编码方式的更多相关文章
- 刨根究底字符编码之十——Unicode字符集的字符编码方式CEF
Unicode字符集的字符编码方式CEF 一.字符编码方式CEF的选择 1. 由于Unicode字符集非常大,有些字符的编号(码点值)需要两个或两个以上字节来表示,而要对这样的编号进行编码,也必须使用 ...
- unicode,gbk,utfF-8字符编码方式的区别
一.编码历史与区别 一直对字符的各种编码方式懵懵懂懂,什么ANSI UNICODE UTF-8 GB2312 GBK DBCS UCS……是不是看的很晕,假如您细细的阅读本文你一定可以清晰的理解他们. ...
- ASCII,Unicode和UTF-8字符编码
ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串.每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte).也就是 ...
- Unicode 字符集与它的编码方式
正式内容開始之前,我们先来了解一个基本概念,编码字符集. 编码字符集:编码字符集是一个字符集,它为每个字符分配一个唯一数字.Unicode 标准的核心是一个编码字符集,字母"A"的 ...
- Unicode字符集和编码方式
通常将一个标准中能够表示的所有字符的集合称为字符集,比如ISO/Unicode所定义的字符集为Unicode.在Unicode中,每个字符占据一个码位/Unicode 编号(用4位十六进制数表示,Co ...
- 字符编码方式ASCII、Unicode、UTF-8
一.ASCII 1.介绍 即American Standard Code for Information Interchange(美国信息交换标准代码),是基于拉丁字母的,主要用于显示现代英语和其他西 ...
- 编码方式之ASCII、ANSI、Unicode概述
1.ASCII ASCII全称(American Standard Code for Information Interchange)美国信息交换标准代码,在计算机内部中8位二进制位组成1个字节(8( ...
- Unicode字符集,utf8编码,base64编码简单了解
Unicode字符集,utf8编码,base64编码简单了解 Unicode字符集,ASCII,GB2312编码集合等,类似于不同的字典,不同的字符的编码,类似于字典中的字在哪一个页哪一排. 当不同系 ...
- java中的字符编码方式
1. 问题由来 面试的时候被问到了各种编码方式的区别,结果一脸懵逼,这个地方集中学习一下. 2. 几种字符编码的方式 1. ASCII码 我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符 ...
随机推荐
- 自定义jstl fn函数fns
1.引入函数声明: jsp页面需要引入自定义fns函数声明:<%@ taglib prefix="fns" uri="/WEB-INF/tlds/fns.tld&q ...
- elasticsearch聚合查询
作者注:本文系作者自己的理解.希望大家多多交流指正 官网java API term是代表完全匹配,也就是精确查询,搜索前不会再对搜索词进行分词,所以我们的搜索词必须是文档分词集合中的一个 TermsB ...
- linkin大话设计模式--单例模式
linkin大话设计模式 开文前先弱弱的问一句:什么是设计模式?我在研究java2ee的时候有研究过,在学js的时候也有看到.设计模式的概念最早源于建筑设计大师<建筑的永恒算法>一书,它表 ...
- linkin大话面向对象--多态
java引用变量有2个类型,一个是编译时类型,一个是运行时类型: 编译时类型:声明的类型,把它看做是什么东西 运行时类型:真正的类型,实际上指的是什么东西 如果编译时类型和运行时类型不同,就出现多态. ...
- php 在foreach中循环数组的时候添加元素的属性
foreach($arr as $k => &$v){ //注意,由于上面遍历的时候写了地址传值符&, //所以下面可以直接给$v 赋值;如果不写&符号,下面这样写是没有 ...
- RecyclerView用法
主界面布局: <RelativeLayout xmlns:android="http://schemas.android.com/apk/res/android" xmlns ...
- PHP date函数详解
在页面的最前页加上date_default_timezone_set(PRC); /*把时间调到北京时间,php5默认为格林威治标准时间*/date ()a: "am"或是 ...
- 【转】DELL R710服务器可以安装的VMWare ESX Server 4.1 全套下载带注册码
随着R710的停产,R720随之面世,但DELL R720服务器只支持vmware esxi5.0以上,DELL客户经理给了一套系统安装后序列号无法解决,还是用4.1好了,却又发现怎么都无法安装.按网 ...
- [UWP]新控件ColorPicker
1. 前言 Fall Creators Update中提供了一个新得ColorPicker控件,解决了以前选择颜色只能用Combo Box的窘境. 2. 一个简单的例子 <ColorPicker ...
- 【COOKIE 与 SESSION】
一.相关概念 cookie的出现,解决http协议无状态特性 由于http协议无法保持状态,但实际情况,我们却又需要"保持状态",因此cookie就是在这样一个场景下诞生. 举例: ...