详细代码:https://github.com/cxcn/dtool 前言 微软拼音和微软五笔通用的用户自定义短语 dat 格式. 解析 前 8 个字节标识文件格式 machxudp,微软五笔的 lex 格式是 imscwubi. 下面 8 个字节应该是版本号. 接下来每 4 字节一组,分别表示偏移表开始.词条开始.文件总长.词条数.导出的时间戳. 然后补 0 一直到偏移表开始. 偏移表记录了每个词条从词条开始的偏移量,每 4 个字节一组. 接下来就是词条本体部分: # 占用字节数 描述 4 1…
详细代码:https://github.com/cxcn/dtool 前言 .qpyd 是 QQ 拼音输入法 6.0 以下版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn/v1/ 下载. 该格式解析的主要难点是其使用了 zlib 压缩,解压后的数据很好解析. 解析 原始文件 0x38 后跟的 4 字节表示压缩数据开始的字节. 0x44 后跟的 4 字节表示词条数. 0x60 - 0x16F 是词库的一些描述信息. 其余未知. 解压数据 使用了 zlib 格式. 我们…
详细代码:https://github.com/cxcn/dtool 前言 .uwl 是紫光拼音输入法(现在叫华宇拼音输入法)使用的词库. 解析 紫光的词库有点复杂,拼音用的索引,但是拼音表没有写在词库里. 好在深蓝词库转换工具已经解析好了,这部分就跳过了. 词长和拼音长关系密切,要注意. 主要词库部分每 1024 字节为一段(分段意义何在?) 前两个字节未知,第 3 个字节表示字符编码格式 0x08 是 GBK,0x09 是 UTF-16LE. 范围 描述 0x04 - 0x23 词库名 0x…
详细代码:https://github.com/cxcn/dtool 前言 .scel 是搜狗拼音输入法所使用的细胞词库格式,可以在 https://pinyin.sogou.com/dict/ 下载. .qcel 是 QQ 拼音输入法 6.0 以上版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn/ 下载. 解析 # 范围 描述 0x00 - 0x11F 未知 a 0x120 - 0x123 不展开重码的词条数(编码数) b 0x124 - 0x127 展开重码的词…
详细代码:https://github.com/cxcn/dtool 前言 .def 是百度手机输入法-更多设置-自定义输入方案所使用的格式. 解析 码表偏移量 0x6D # 占用字节数 描述 a 1 编码长度(红色框) b 1 词长 * 2 + 2 a 编码(黄色框),可以是纯编码,也可以是 编码=位置 b-2 词(绿色框),utf16-le 编码 6 6 个空字节代表词条结束 代码实现: r.Seek(0x6D, 0) // 从 0x6D 开始读 for r.Len() > 4 { code…
详细代码:https://github.com/cxcn/dtool 前言 mb 是极点五笔的码表格式. 解析 偏移量 描述 0x00 版本信息 0x1B 码表介绍 0x11F 所用到的按键数 0x120 所用到的按键,utf-16le 0x154 万能键 0x156 编码截止键 0x176 组词规则 0x176 组词规则 0x194 径直上屏的标点 0x1B4 特殊符号引导符 0x1B8 未知 0x1B620 左右 码表 上图选中部分解析为 五笔点儿词库2022春 QQ群313225526 生…
前言 .bdict 是百度的分类词库格式,可以在 https://shurufa.baidu.com/dict 下载. 手机百度的分类词库格式 .bcd 是一样的,可以在 https://mime.baidu.com/web/iw/index/ 下载. 解析 范围 描述 0x70 - 0x73 词条数 0x90 - 0xCF 词库名 0xD0 - 0x10F 词库作者 0x110 - 0x14F 示例词 0x150 - 0x34F 词库描述 有的词库在 0x250 开始的后 4 个字节是大端序的…
搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 'ni'kan'zhe 你看着 'ni'kan'zhe'ban 你看着办 'ni'kan'zhe'jiu'xing 你看着就行 'ni'kao'bu'kao 你考不考 'ni'kao'de 你考得 'ni'kao'wan 你考完 'ni'kao'yan 你考研 'ni'kao'yan'ma 你考研吗…
paip 自定义输入法词库的备份导出以及导入 作者Attilax 艾龙,  EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/attila /////////64位win7 哈的使用问题. 能安装..但是系统环境中不能直接使用.. 在应用中能使用了. //////////备份导出 普通的32位机器,直接备份导出 64位机器,备份导出默认的功能不能使用..需要 search eveything 到个main.dmg ,不个这…
距离上一次大版本的发布已经很久很久了,中间是不是会收到一些用户的来信,提出新的需求,于是只是做小版本的更新,终于积累了一些更新后,打算做个大版本的发布了. 深蓝词库转换是一个输入法的词库互转和生成软件,支持市面上主流的各种输入法软件的词库(加密的除外)和各种输入法(拼音.五笔.二笔,甚至台湾的注音.仓颉等),除了汉语还支持英文词库的导入导出以及根据词典生成英文输入法词库. 说回这次新版本的发布,除了修复之前版本中的Bug外,主要是实现了以下新功能: 1.支持手心输入法 手心输入法是最近几年横空出…