0 背景

统汉字数据库是Unicode标准包含的中日韩统一表意文字集体知识的存储库。它包含映射数据来实现与其他编码字符集相互转换,和附加信息来帮助实现对使用汉字表意文字的各种语言的支持。简单来讲就是我们见得Unicode中的CJK部分。

在此介绍的是 Unihan Database 中的一些字段内容。
Unihan.zip : ftp://ftp.unicode.org/Public/UNIDATA/Unihan.zip
(网上也是很好找到的)
该zip文件包含8个文本文件,每个文件都是UTF-8,NFC格式,并使用Unix行尾结束符号。每个文件都包含统汉字数据库中某些字段的值。
文件中的分隔符不多介绍。

Unicode Han Database 具体可看 (http://www.unicode.org/reports/tr38/),这是当前最新版本。
网上有一个部分翻译,有字段的详细介绍,是5.0.0版本的(2006) (https://blog.csdn.net/nivana999/article/details/4247844)

这个数据库包含的信息非常多,自己去发现吧 XD

1 文件

1.1 IRG Sources

对应文件: Unihan_IRGSources.txt

  • Unihan_IRGSources.txt
  • kCompatibilityVariant 相容变体 (没太搞清楚这个canonical Decomposition_Mapping value,详细看文档吧)

1.2 Dictionary Indices

主要内容: 字典索引
对应文件: Unihan_DictionaryIndices.txt

  • kMeyerWempe, 罗马化粤语拼音方案
  • kMatthews, Matthews汉英词典
  • ...

1.3 Dictionary-like Data

对应文件: Unihan_DictionaryLikeData.txt

  • kFrequency, 使用频度等级(1为最高,最低到5)
  • kTotalStrokes, 总笔划数

1.4 Other Mappings

主要内容: 与其他编码字符集的映射
对应文件: Unihan_OtherMappings.txt

  • kBigFive Big5编码
  • ...
  • kTaiwanTelegraph, 台湾电报代码
  • kXerox, Xerox code

1.5 Radical-stroke Indices

主要内容: 部首-(剩余)笔画数
对应文件: Unihan_RadicalStrokeCounts.txt

  • kRSAdobe_Japan1_6, Adobe-Japan1-6中的字形信息(包含康熙部首序号,部首笔画数,剩余笔画数)
  • kRSJapanese, Japanese radical/stroke count(radical.additional strokes)
  • kRSKangXi, 康熙部首序号,剩余笔画数 (radical.additional strokes)
  • kRSKanWa, Morohashi radical/stroke count(radical.additional strokes)
  • kRSKorean, Korean radical/stroke count(radical.additional strokes)

1.6 Readings

主要内容: 发音
对应文件: Unihan_Readings.txt

  • kDefinition, 英文解释
  • kHanyuPinlu, 读音及其使用频率 -- 汉字才有
  • kMandarin, 普通话发音
  • kCantonese, 广东话发音
  • kJapaneseKun, 日语发音,训读(训読み/くんよみ)
  • kJapaneseOn, 日语中的汉字发音,音读(音読み/おんよみ)
  • kKorean, 韩语发音,耶鲁拼音(不推荐使用)
  • kHangul, 韩语字母(韩文)
  • kVietnamese, 越南语发音
  • kTang, 唐代发音
  • kXHC1983, 1983版的《现代汉语词典》给出的汉语拼音

1.7 Variants

主要内容: 变体
对应文件: Unihan_Variants.txt

  • kTraditionalVariant, 繁体中文变体
  • kSimplifiedVariant, 简体中文变体
  • kZVariant, Z变体 (en.wikipedia.org/wiki/Z-variant)
  • kSemanticVariant, 语义变体 (具体看相关里面的介绍)
  • kSpecializedSemanticVariant, 特殊语义变体

2 相关知识点

  • Sino-Japanese
    在汉语音韵学界,这些被借入邻国的汉字的音韵系统被分别称为日本汉字音(Sino-Japanese),高丽汉字音(Sino-Korean)和越南汉字音(或汉越语 Sino-Vietnames)。Samuel Martin 统称这三种汉字音为 Sinoxenic dialects(1953) —— 《从闽南话到日本汉字音》

  • 唐代发音
    《T’ang Poetic Vocabulary》Hugh M. Stimson, Far Eastern Publications, Yale University, 1976 - 142页

  • kSemanticVariant 和 kSpecializedSemanticVariant
    有两个变体字段,kSemanticVariant 和 kSpecializedSemanticVariant,分别用于标记两个字符具有相同意义和重叠含义的情况。
    Thus U+514E“兎”和 U+5154“兔”互为Y变体 (X、Y、Z变体可看这篇 ),都是兔子之意。 而U+4E3C“丼”和 U+4E95“井”并非纯粹的Y变体,“井” 是其本意 “一口井”,但 “丼”的话,虽然也有“井”的含义,也当做“井”来用, 但它也常常用在表示“一碗食物”。对于前一对,我们使用kSemanticVariant,而对于后一对, 则使用 kSpecializedSemanticVariant 。在许多情况下,提供的数据列出了指示变体关系的Unihan来源(?)。语法会在下面详细介绍,先来看一个例子, U+792E“礮”有kSemanticVariant 值:U+70AE<kMeyerWempe U+7832<kLau,kMatthews,kMeyerWempe U+791F<kLau,kMatthews. 这意味着 Mathews, Lau, and Meyer-Wempe 词典都认为这是 U+7832“砲”的Y变体, 而只有 Mathews 和 Lau 认为是 U+791F“礟”的一个变种, 并且只有 Meyer-Wempe 认为是 U+70AE“炮”的变种。

  • 中日汉字
    《常用汉字表》 共2136字、4388音训 (zh.wikipedia.org/wiki/常用漢字)
    《人名用汉字表》在常用汉字之外亦有可用于人名的人名用汉字 —— wiki
    《表外汉字字体表》—— wiki
    中日汉字异同 (zh.wikipedia.org/wiki/新字体)
    新字体中,字形与港澳台取字相同的有“為”、“併”等字。
    而与中国大陆的规范汉字相同的有“万”、“医”、“会”、“学”、“礼”、“昼”、“独”、“争”、“国”、“党”、“乱”等;差不多相同的有“恋(恋)”、“画(画)”、“浅(浅)”、“鉄(铁)”、“変(变)”、“ 辺(边)”、“ 圧(压)”、“ 庁(厅)”、“ 継(继)”等,其中“恋(恋)”、“画(画)”、“浅(浅)”、“将(将)”等与简化字拥有相同的Unicode编码。
    也有与中文汉字完全不像的,如“図(圖·图)”、“糸(絲·丝)”。

  • 康熙部首
    Kangxi radical (en.wikipedia.org/wiki/Kangxi_radical) 214

  • Unicode扩展汉字
    (针对多形的字,有些可能只能显示其对应的,需要安装特殊字体才可显示)
    (zh.wikipedia.org/wiki/Wikipedia:Unicode扩展汉字)

  • 字形
    国标,新旧字形,《现代汉语通用字表》
    (zh.wikipedia.org/wiki/字形)

  • opencc 繁简体转换的词库
    (github.com/BYVoid/OpenCC/tree/master/data/dictionary)

  • 汉字,发音相关字典
    (https://ctext.org/instructions/dictionary/zhs)

Unihan(统汉字)常用字段介绍的更多相关文章

  1. ORM常用字段介绍

    Django中的ORM Django项目使用MySQL数据库 1. 在Django项目的settings.py文件中,配置数据库连接信息: DATABASES = { "default&qu ...

  2. {Django基础十之Form和ModelForm组件}一 Form介绍 二 Form常用字段和插件 三 From所有内置字段 四 字段校验 五 Hook钩子方法 六 进阶补充 七 ModelForm

    Django基础十之Form和ModelForm组件 本节目录 一 Form介绍 二 Form常用字段和插件 三 From所有内置字段 四 字段校验 五 Hook钩子方法 六 进阶补充 七 Model ...

  3. C#构造方法(函数) C#方法重载 C#字段和属性 MUI实现上拉加载和下拉刷新 SVN常用功能介绍(二) SVN常用功能介绍(一) ASP.NET常用内置对象之——Server sql server——子查询 C#接口 字符串的本质 AJAX原生JavaScript写法

    C#构造方法(函数)   一.概括 1.通常创建一个对象的方法如图: 通过  Student tom = new Student(); 创建tom对象,这种创建实例的形式被称为构造方法. 简述:用来初 ...

  4. Django (二) 常用字段及 ORM

    MVC介绍 Django生命周期 many-to-many One-to-many Django常用字段 CharFiled 需要有max_length unique=True(代表不能重名) Ema ...

  5. SharePoint常用目录介绍

    SharePoint常用目录介绍 stsadm命令管理程序目录:C:\Program Files\Common Files\Microsoft Shared\web server extensions ...

  6. Redis常用数据类型介绍、使用场景及其操作命令

    Redis常用数据类型介绍.使用场景及其操作命令 本文章同时也在cpper.info发布. Redis目前支持5种数据类型,分别是: 1.String(字符串) 2.List(列表) 3.Hash(字 ...

  7. Linux下查看某个进程打开的文件数-losf工具常用参数介绍

    Linux下查看某个进程打开的文件数-losf工具常用参数介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在linux操作系统中,一切皆文件.通过文件不仅仅可以访问常规数据,还 ...

  8. Hadoop基础-MapReduce的常用文件格式介绍

    Hadoop基础-MapReduce的常用文件格式介绍 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MR文件格式-SequenceFile 1>.生成SequenceF ...

  9. MySQL 常用函数介绍

    MySQL 基础篇 三范式 MySQL 军规 MySQL 配置 MySQL 用户管理和权限设置 MySQL 常用函数介绍 MySQL 字段类型介绍 MySQL 多列排序 MySQL 行转列 列转行 M ...

随机推荐

  1. Powershell cannot be loaded because running scripts is disabled on this system 解决办法

    问题背景 第一次跑ps时,出现了下面的提示.这是因为windows不允许执行脚本而已,不要大惊小怪. 解决办法 这个需要管理员执行,不然会出现以下的情况 正常情况

  2. System Verilog基础(二)

    这一篇笔记主要记录Procedural,Process,Task and function,Interface和Communication中值得注意的点. 1.Procedural 写testbenc ...

  3. webpack原理探究 && 打包优化

    在做vue项目和react项目时,都用到了webpack.webpack帮助我们很好地提高了工作效率,但是一直以来没有对其原理进行探究,略有遗憾. 因为使用一个工具,能够深入了解其原理才能更好地使用. ...

  4. Eclipse 安装spring插件spring tool suite(STS)

    安装方法有2种,一种是在线安装,比较方便,但耗时较长,一种是离线安装,步骤复杂一些,但耗时少,下面请看详细步骤. 方法一:在线安装     1:打开eclipse菜单Help>Eclise Ma ...

  5. Javac之inner与nested类

    One way declared types in Java differ from one another is whether the type is a class (which include ...

  6. JavaScript数据结构-12.散列碰撞(线性探测法)

    <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...

  7. Linux下iptables 禁止端口和开放端口

    1.关闭所有的 INPUT FORWARD OUTPUT 只对某些端口开放.下面是命令实现: iptables -P INPUT DROP iptables -P FORWARD DROP iptab ...

  8. WEB Front-end Development Technology

    1.Einführung der HTML(Hypertext Markup Language) 1.1 Grundlegendes Label 1.1.1 Block Label <h1> ...

  9. PHP命名规则

    参考: http://nowhisky.diandian.com/post/2012-08-12/40033898638 就一般约定而言,类.函数和变量的名字应该是能够让代码阅读者能够容易地知道这些代 ...

  10. 从0开始整合SSM框架--3.整合SpringMvc

    前面面已经完成了2大框架的整合,SpringMVC的配置文件单独放,然后在web.xml中配置整合.1.配置spring-mvc.xml <beans xmlns="http://ww ...