Unihan(统汉字)常用字段介绍
0 背景
统汉字数据库是Unicode标准包含的中日韩统一表意文字集体知识的存储库。它包含映射数据来实现与其他编码字符集相互转换,和附加信息来帮助实现对使用汉字表意文字的各种语言的支持。简单来讲就是我们见得Unicode中的CJK部分。
在此介绍的是 Unihan Database 中的一些字段内容。
Unihan.zip : ftp://ftp.unicode.org/Public/UNIDATA/Unihan.zip
(网上也是很好找到的)
该zip文件包含8个文本文件,每个文件都是UTF-8,NFC格式,并使用Unix行尾结束符号。每个文件都包含统汉字数据库中某些字段的值。
文件中的分隔符不多介绍。
Unicode Han Database 具体可看 (http://www.unicode.org/reports/tr38/),这是当前最新版本。
网上有一个部分翻译,有字段的详细介绍,是5.0.0版本的(2006) (https://blog.csdn.net/nivana999/article/details/4247844)
这个数据库包含的信息非常多,自己去发现吧 XD
1 文件
1.1 IRG Sources
对应文件: Unihan_IRGSources.txt
- Unihan_IRGSources.txt
- kCompatibilityVariant 相容变体 (没太搞清楚这个canonical Decomposition_Mapping value,详细看文档吧)
1.2 Dictionary Indices
主要内容: 字典索引
对应文件: Unihan_DictionaryIndices.txt
- kMeyerWempe, 罗马化粤语拼音方案
- kMatthews, Matthews汉英词典
- ...
1.3 Dictionary-like Data
对应文件: Unihan_DictionaryLikeData.txt
- kFrequency, 使用频度等级(1为最高,最低到5)
- kTotalStrokes, 总笔划数
1.4 Other Mappings
主要内容: 与其他编码字符集的映射
对应文件: Unihan_OtherMappings.txt
- kBigFive Big5编码
- ...
- kTaiwanTelegraph, 台湾电报代码
- kXerox, Xerox code
1.5 Radical-stroke Indices
主要内容: 部首-(剩余)笔画数
对应文件: Unihan_RadicalStrokeCounts.txt
- kRSAdobe_Japan1_6, Adobe-Japan1-6中的字形信息(包含康熙部首序号,部首笔画数,剩余笔画数)
- kRSJapanese, Japanese radical/stroke count(radical.additional strokes)
- kRSKangXi, 康熙部首序号,剩余笔画数 (radical.additional strokes)
- kRSKanWa, Morohashi radical/stroke count(radical.additional strokes)
- kRSKorean, Korean radical/stroke count(radical.additional strokes)
1.6 Readings
主要内容: 发音
对应文件: Unihan_Readings.txt
- kDefinition, 英文解释
- kHanyuPinlu, 读音及其使用频率 -- 汉字才有
- kMandarin, 普通话发音
- kCantonese, 广东话发音
- kJapaneseKun, 日语发音,训读(训読み/くんよみ)
- kJapaneseOn, 日语中的汉字发音,音读(音読み/おんよみ)
- kKorean, 韩语发音,耶鲁拼音(不推荐使用)
- kHangul, 韩语字母(韩文)
- kVietnamese, 越南语发音
- kTang, 唐代发音
- kXHC1983, 1983版的《现代汉语词典》给出的汉语拼音
1.7 Variants
主要内容: 变体
对应文件: Unihan_Variants.txt
- kTraditionalVariant, 繁体中文变体
- kSimplifiedVariant, 简体中文变体
- kZVariant, Z变体 (en.wikipedia.org/wiki/Z-variant)
- kSemanticVariant, 语义变体 (具体看相关里面的介绍)
- kSpecializedSemanticVariant, 特殊语义变体
2 相关知识点
Sino-Japanese
在汉语音韵学界,这些被借入邻国的汉字的音韵系统被分别称为日本汉字音(Sino-Japanese),高丽汉字音(Sino-Korean)和越南汉字音(或汉越语 Sino-Vietnames)。Samuel Martin 统称这三种汉字音为 Sinoxenic dialects(1953) —— 《从闽南话到日本汉字音》唐代发音
《T’ang Poetic Vocabulary》Hugh M. Stimson, Far Eastern Publications, Yale University, 1976 - 142页kSemanticVariant 和 kSpecializedSemanticVariant
有两个变体字段,kSemanticVariant 和 kSpecializedSemanticVariant,分别用于标记两个字符具有相同意义和重叠含义的情况。
Thus U+514E“兎”和 U+5154“兔”互为Y变体 (X、Y、Z变体可看这篇 ),都是兔子之意。 而U+4E3C“丼”和 U+4E95“井”并非纯粹的Y变体,“井” 是其本意 “一口井”,但 “丼”的话,虽然也有“井”的含义,也当做“井”来用, 但它也常常用在表示“一碗食物”。对于前一对,我们使用kSemanticVariant,而对于后一对, 则使用 kSpecializedSemanticVariant 。在许多情况下,提供的数据列出了指示变体关系的Unihan来源(?)。语法会在下面详细介绍,先来看一个例子, U+792E“礮”有kSemanticVariant 值:U+70AE<kMeyerWempe U+7832<kLau,kMatthews,kMeyerWempe U+791F<kLau,kMatthews. 这意味着 Mathews, Lau, and Meyer-Wempe 词典都认为这是 U+7832“砲”的Y变体, 而只有 Mathews 和 Lau 认为是 U+791F“礟”的一个变种, 并且只有 Meyer-Wempe 认为是 U+70AE“炮”的变种。中日汉字
《常用汉字表》 共2136字、4388音训 (zh.wikipedia.org/wiki/常用漢字)
《人名用汉字表》在常用汉字之外亦有可用于人名的人名用汉字 —— wiki
《表外汉字字体表》—— wiki
中日汉字异同 (zh.wikipedia.org/wiki/新字体)
新字体中,字形与港澳台取字相同的有“為”、“併”等字。
而与中国大陆的规范汉字相同的有“万”、“医”、“会”、“学”、“礼”、“昼”、“独”、“争”、“国”、“党”、“乱”等;差不多相同的有“恋(恋)”、“画(画)”、“浅(浅)”、“鉄(铁)”、“変(变)”、“ 辺(边)”、“ 圧(压)”、“ 庁(厅)”、“ 継(继)”等,其中“恋(恋)”、“画(画)”、“浅(浅)”、“将(将)”等与简化字拥有相同的Unicode编码。
也有与中文汉字完全不像的,如“図(圖·图)”、“糸(絲·丝)”。康熙部首
Kangxi radical (en.wikipedia.org/wiki/Kangxi_radical) 214Unicode扩展汉字
(针对多形的字,有些可能只能显示其对应的,需要安装特殊字体才可显示)
(zh.wikipedia.org/wiki/Wikipedia:Unicode扩展汉字)字形
国标,新旧字形,《现代汉语通用字表》
(zh.wikipedia.org/wiki/字形)opencc 繁简体转换的词库
(github.com/BYVoid/OpenCC/tree/master/data/dictionary)汉字,发音相关字典
(https://ctext.org/instructions/dictionary/zhs)
Unihan(统汉字)常用字段介绍的更多相关文章
- ORM常用字段介绍
Django中的ORM Django项目使用MySQL数据库 1. 在Django项目的settings.py文件中,配置数据库连接信息: DATABASES = { "default&qu ...
- {Django基础十之Form和ModelForm组件}一 Form介绍 二 Form常用字段和插件 三 From所有内置字段 四 字段校验 五 Hook钩子方法 六 进阶补充 七 ModelForm
Django基础十之Form和ModelForm组件 本节目录 一 Form介绍 二 Form常用字段和插件 三 From所有内置字段 四 字段校验 五 Hook钩子方法 六 进阶补充 七 Model ...
- C#构造方法(函数) C#方法重载 C#字段和属性 MUI实现上拉加载和下拉刷新 SVN常用功能介绍(二) SVN常用功能介绍(一) ASP.NET常用内置对象之——Server sql server——子查询 C#接口 字符串的本质 AJAX原生JavaScript写法
C#构造方法(函数) 一.概括 1.通常创建一个对象的方法如图: 通过 Student tom = new Student(); 创建tom对象,这种创建实例的形式被称为构造方法. 简述:用来初 ...
- Django (二) 常用字段及 ORM
MVC介绍 Django生命周期 many-to-many One-to-many Django常用字段 CharFiled 需要有max_length unique=True(代表不能重名) Ema ...
- SharePoint常用目录介绍
SharePoint常用目录介绍 stsadm命令管理程序目录:C:\Program Files\Common Files\Microsoft Shared\web server extensions ...
- Redis常用数据类型介绍、使用场景及其操作命令
Redis常用数据类型介绍.使用场景及其操作命令 本文章同时也在cpper.info发布. Redis目前支持5种数据类型,分别是: 1.String(字符串) 2.List(列表) 3.Hash(字 ...
- Linux下查看某个进程打开的文件数-losf工具常用参数介绍
Linux下查看某个进程打开的文件数-losf工具常用参数介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在linux操作系统中,一切皆文件.通过文件不仅仅可以访问常规数据,还 ...
- Hadoop基础-MapReduce的常用文件格式介绍
Hadoop基础-MapReduce的常用文件格式介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MR文件格式-SequenceFile 1>.生成SequenceF ...
- MySQL 常用函数介绍
MySQL 基础篇 三范式 MySQL 军规 MySQL 配置 MySQL 用户管理和权限设置 MySQL 常用函数介绍 MySQL 字段类型介绍 MySQL 多列排序 MySQL 行转列 列转行 M ...
随机推荐
- 南昌网络赛 Distance on the tree 主席树+树剖 (给一颗树,m次查询ui->vi这条链中边权小于等于ki的边数。)
https://nanti.jisuanke.com/t/38229 题目: 给一颗树,m次查询ui->vi这条链中边权小于等于ki的边数. #include <bits/stdc++.h ...
- [Xamarin] 開啟另外一個Activity 並且帶資料 (转帖)
每隻App是透過許多畫面所組成的,當然可能主畫面之外,都會有許多其他的頁面 再Android 設計中畫面會有配合的Activity 當然在這之前,最好事先了解一下,Android 關於生命週期的規劃 ...
- 在idea中使用@Test注解报错的解决方案
Junit注解 为什么使用单元测试注解,就是为了单元测试自己的代码有没有写错,方便于排错误, 没有使用注解之前,我们开发时测试一个刚写的类,一般输出看到结果都要写一个main方法才能测试,但是使用的单 ...
- PHP 浮点数 转化 整数方法对比 ceil,floor,round,intval,number_format
ceil,floor,round,intval,number_format - 执行1000W此效率对比 Header("Content-Type:text/html;charset=utf ...
- JavaScript数据结构-10.字典
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
- 什么是SharePoint?
在聊SharePoint开发之前,有必要说下什么是SharePoint. 在我工作的过程中,经常遇到客户对SharePoint不太了解的情况.有客户说,SharePoint太烂了,DropBox能做到 ...
- 解决java获取系统时间差8个小时 专题
在WIN7下发现一些Java的程序获取系统时间比真实时间差了8个小时,怀疑是Java程序沿用了低版本的JDK,获取时间时取的GSM 0时区,而中国是GSM +8,所以查了8个小时,解决办法如下: 修改 ...
- SQL Serever学习6——数据表
数据表 表的构成 数据库中的基本表由记录(行)和字段(列)构成,SQLServer2008每个表可以有1024个列,每个列可以有8060字节(不包括iamge,ntext,text类型). 记录(Re ...
- [转] 如何让代码可测试化(C#)
让代码可测试化 本篇介绍如何把我们目前最常见的代码转换为可以单元测试的代码,针对业务逻辑层来实现可测试性,我们以银行转账为例,通常代码如下: public class TransferControll ...
- jQuery事件篇---高级事件
内容提纲: 1.模拟操作 2.命名空间 3.事件委托 4.on.off 和 one 发文不易,转载请注明出处! 一.模拟操作 在事件触发的时候,有时我们需要一些模拟用户行为的操作.例如:当网页加载完毕 ...