输入法词库解析（六）QQ 拼音分类词库.qpyd

详细代码：https://github.com/cxcn/dtool

前言

.qpyd 是 QQ 拼音输入法 6.0 以下版本所用的词库格式，可以在 http://cdict.qq.pinyin.cn/v1/ 下载。

该格式解析的主要难点是其使用了 zlib 压缩，解压后的数据很好解析。

解析

原始文件

0x38 后跟的 4 字节表示压缩数据开始的字节。

0x44 后跟的 4 字节表示词条数。

0x60 - 0x16F 是词库的一些描述信息。

其余未知。

解压数据

使用了 zlib 格式。

我们看看解压后的数据是什么形式。

可以发现它分为两部分，前部分每 10 个一组，总长 10*词条数。

放到文本编辑器里分析一下，这里取了前后两部分前三条。

可以看到前部分是编码长和词长信息，后半部分 ascii 的编码 + utf-16le 的词条。

前半部分保存了所有词条的编码长，词长，索引位置。

占用字节数	描述
1	拼音的长度
1	词字节长
4	未知，全是`00 00 80 3F`
4	词条的索引位置

后半部分就是词条本身了，拼音和词，词条之间都是紧挨着的。

前面是编码，框里的是词。

代码实现：

func (QqQpyd) Parse(filename string) Dict {

    data, _ := os.ReadFile(filename)

    r := bytes.NewReader(data)

    ret := make(Dict, 0, r.Len()>>8)

    var tmp []byte

    // 0x38 后跟的是压缩数据开始的偏移量

    r.Seek(0x38, 0)

    startZip := ReadUint32(r)

    // 0x44 后4字节是词条数

    r.Seek(0x44, 0)

    dictLen := ReadUint32(r)

    // 0x60 到zip数据前的一段是一些描述信息

    r.Seek(0x60, 0)

    head := make([]byte, startZip-0x60)

    r.Read(head)

    // headStr, _ := Decode(head, "UTF-16LE")

    // fmt.Println(headStr) // 打印描述信息

    // 解压数据

    zrd, err := zlib.NewReader(r)

    if err != nil {

        log.Panic(err)

    }

    defer zrd.Close()

    buf := new(bytes.Buffer)

    buf.Grow(r.Len())

    _, err = io.Copy(buf, zrd)

    if err != nil {

        log.Panic(err)

    }

    // 解压完了

    r.Reset(buf.Bytes())

    for i := 0; i < dictLen; i++ {

        // 指向当前

        r.Seek(int64(10*i), 0)

        // 读码长、词长、索引

        addr := make([]byte, 10)

        r.Read(addr)

        idx := BytesToInt(addr[6:]) // 后4字节是索引

        r.Seek(int64(idx), 0)       // 指向索引

        // 读编码，自带 ' 分隔符

        tmp = make([]byte, addr[0])

        r.Read(tmp)

        code := string(tmp)

        // 读词

        tmp = make([]byte, addr[1])

        r.Read(tmp)

        word, _ := util.Decode(tmp, "UTF-16LE")

        ret = append(ret, Entry{word, strings.Split(code, "'"), 1})

    }

    return ret

}

输入法词库解析（六）QQ 拼音分类词库.qpyd的更多相关文章

用C语言将搜狗输入法词库转换成QQ拼音输入法词库
搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 ...
JavaScript Emoji 表情库_js 类似于qq微信的表情库
摘要: emoji就是表情符号,来自日语词汇“絵文字”(假名为“えもじ”,读音即emoji).emoji的创造者是日本人栗田穰崇(Shigetaka Kurita),他将目光投向儿时的各种元素以获取灵 ...
QQ五笔词库转拼音词库小工具
参考文章<用QQ拼音打五笔>中提供的信息而制作的小工具,功能是将QQ五笔导出词库文件转换为QQ拼音自定义短语使用的.ini格式文件,这样就可以使用QQ拼音进行五笔拼音混输了. 混输效果不错 ...
输入法词库解析（四）百度分类词库.bdict(.bcd)
前言 .bdict 是百度的分类词库格式,可以在 https://shurufa.baidu.com/dict 下载. 手机百度的分类词库格式 .bcd 是一样的,可以在 https://mime.b ...
输入法词库解析（三）紫光拼音词库.uwl
详细代码:https://github.com/cxcn/dtool 前言 .uwl 是紫光拼音输入法(现在叫华宇拼音输入法)使用的词库. 解析紫光的词库有点复杂,拼音用的索引,但是拼音表没有写在词 ...
输入法词库解析（二）搜狗拼音细胞词库.scel(.qcel)
详细代码:https://github.com/cxcn/dtool 前言 .scel 是搜狗拼音输入法所使用的细胞词库格式,可以在 https://pinyin.sogou.com/dict/ 下载 ...
输入法词库解析（五）极点码表.mb
详细代码:https://github.com/cxcn/dtool 前言 mb 是极点五笔的码表格式. 解析偏移量描述 0x00 版本信息 0x1B 码表介绍 0x11F 所用到的按键数 0x1 ...
评价qq拼音输入法
我目前正在使用qq拼音输入法,从人机交互设计方面,我对qq输入法从用户界面.记住用户选择.短期刺激和长期使用的好处坏处.不让用户犯简单错误这四个方面进行了评价. 1.从用户界面方面: qq输入法用户界 ...
评价正在使用输入法软件产品----QQ拼音输入法
评价一下大家手头正在使用输入法或者搜索类的软件产品. 我现在使用的是系统自带的QQ拼音输入法,以前使用的是搜狗拼音输入法,后来发现可能由于我的系统重装过好几次,搜狗输入法也重装了好几次,而每次都删不干 ...

随机推荐

跨平台（32bit和64bit）的 printf 格式符 %lld 输出64位的解决方式
问题描述在 C/C++ 开发中,使用 printf 打印 64 位变量比较常用,通常在 32 位系统中使用 %lld 输出 64 位的变量,而在 64 位系统中则使用 %ld: 如果在 32 位系统 ...
优化对称加密的 shell 脚本
前言之前一篇文章<shell 脚本实现文件对称加密>中,讲述了如何用 shell 脚本实现对称加密. 之后写管理密码脚本时,发觉该脚本的处理速度非常慢,而其原因就在 shell 的处理命 ...
牛客SQL刷题第三趴——SQL大厂面试真题
01 某音短视频 SQL156 各个视频的平均完播率 [描述]用户-视频互动表tb_user_video_log.(uid-用户ID, video_id-视频ID, start_time-开始观看时间 ...
03 uniapp自定义导航栏的开发
在我眼里自定义导航分2类: 原生基础上 || 非原生基础上总结:项目当中能原生就原生,提高性能区别 uni-app 自带原生导航栏,在pages.json里配置. 原生导航的体验更好,渲染新页面时 ...
Nginx常用命令之启动与重启
1.测试新的Nginx程序是否正确 [test@P-SH-Nginx-01 nginx]$ ./sbin/nginx -t nginx: the configuration file /usr/loc ...
VMware Workstation是可以跟hyper-v 共存的！
VMware Workstation是可以跟hyper-v 共存的! 神奇的事情之前一直不知道这个事情,后来发现,原来是可以的,震惊了我的双眼. 我之前一直用的是桌面的Docker Desktop ...
Bika LIMS 开源LIMS集—— SENAITE的使用（检测流程）
客户管理登记客户信息,包括地址.合同报告邮寄地址.账单邮寄地址.付款银行账号等. 产品批次管理例如某乳品公司生产处一批产品,该批产品送往实验室检测,实验室登记该批产品批号,如对该批产品做多次检测, ...
lamp平台构建
目录 lamp平台构建安装httpd 安装mysql 安装php 配置apache 启用代理模块配置虚拟主机启用代理模块验证 lamp平台构建环境说明: 系统平台 IP 需要安装的服务 ce ...
Luogu2073 送花（平衡树）
打感叹号处为傻逼处 #include <iostream> #include <cstdio> #include <cstring> #include <al ...
Spring源码 04 IOC XML方式
参考源 https://www.bilibili.com/video/BV1tR4y1F75R?spm_id_from=333.337.search-card.all.click https://ww ...

输入法词库解析（六）QQ 拼音分类词库.qpyd

前言

解析

原始文件

解压数据

输入法词库解析（六）QQ 拼音分类词库.qpyd的更多相关文章

随机推荐

热门专题