为什么用Rime 13年底的时候,日本爆出百度的日本版本输入法的问题,要求政府人员停用,没当回事,反正我没用,当然了,有关搜狗和用户隐私有关的问题就一直没有中断过,也没太在意.但,前几天McAfee爆出的某输入法用户敏感数据未加密传输的问题,就让人担心了. 好吧,既然这样,还是卸了第三方的输入法吧,虽然Yosemite自带的输入法已经进步很大了,但是总是用的不顺手,也想念自己多年在搜狗输入法上积累的词库.既然这样,那就只能考虑自己动手丰衣足食的问题了. 有关“Rime鼠须管”输入法,在各类MAC…
之前一直没用过合成词库这功能,有个同步用户数据的选项,点它后,生成一个文件夹,里面就有当前的一些配置,词库之类的 /Users/dfpo/Library/Rime/sync 这样我们就得到了一个装着用户数据的文件夹,同样的操作,假如你在公司也有这份数据就可以合并了. 把这些词库文件夹放sync下,再点击同步用户数据,就会把这些词库合并了,智能合并…
SCWS是个不错的中文分词解决方案,词库也是hightman个人制作,总不免有些不尽如人意的地方.有些词语可能不会及时被收入词库中. 幸好SCWS提供了词库XDB导出导入词库的工具(phptool_for_scws_xdb.zip),下载后解压至任意文件夹,我解压至“E:/www/tools/scws_xdb/”目录下.在命令行下进入PHP的安装目录,我的目录是”E:/xampp/php“. 步骤1:执行命令行,将词库先导出来,生成一个文本文件(dict.txt): 命令格式为:php dump…
详细代码:https://github.com/cxcn/dtool 前言 .uwl 是紫光拼音输入法(现在叫华宇拼音输入法)使用的词库. 解析 紫光的词库有点复杂,拼音用的索引,但是拼音表没有写在词库里. 好在深蓝词库转换工具已经解析好了,这部分就跳过了. 词长和拼音长关系密切,要注意. 主要词库部分每 1024 字节为一段(分段意义何在?) 前两个字节未知,第 3 个字节表示字符编码格式 0x08 是 GBK,0x09 是 UTF-16LE. 范围 描述 0x04 - 0x23 词库名 0x…
摘要:对于中文的搜索来说,词库系统是一个很比较重要的模块,本篇以IK分词器为例子,介绍如何让分词器从缓存或文件系统中自动按照一定频次进行加载扩展词库 Lucene.Solr或ElasticStack如何从外部动态加载词库进入到内存作为分词使用,且这一系列动作不需要重启相应的搜索服务?当前市面上各种博客.论坛都是各种转载或者只是最简单的使用IK,根本无法达到线上使用的条件,而IK分词器默认是一次启动将主词库.停用词以及扩展词库全部加载完毕,后续如果再想要增加额外的扩展词就必须得修改对应的扩展词表并…
由于项目中要用到词库,而下载的搜狗词库是.scel格式,所以就用python脚本将搜狗词库.scel格式文件转化为.txt格式文件. #!/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb try: reload(sys) sys.setdefaultencoding('utf-8') except: pass # 搜狗的scel词库就是保存的文本的unicode编码,每两…
#!/usr/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb #搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母) #找出其每部分的偏移位置即可 #主要两部分 #1.全局拼音表,貌似是所有的拼音组合,字典序 # 格式为(index,len,pinyin)的列表 # index: 两个字节的整数 代表这个拼音的索引 # len:…
#环境需求 Python2 1 #!/bin/python # -*- coding: utf- -*- import struct import sys import binascii import pdb try: reload(sys) sys.setdefaultencoding('utf-8') except: pass # 搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母) # 找出其每部分的偏移位置即可 # 主要两部分 # .全局拼音表…
div id="cnblogs_post_body" class="blogpost-body"> 最近彻底烦透了搜狗拼音输入法的各种流氓行为,自动升级不说,还在后台偷偷下载搜狗浏览器,卸了又下载,还自动弹出搜狐新闻,一怒之下把它卸载了,准备尝试一下开源的Rime输入法,至少没广告,据说可配制度还很高. 首先去 http://rime.im 下载小狼毫输入法的安装程序进行安装: 安装好后设置,我只选择了“朙月拼音”和“朙月拼音简化字”两种输入法,话说这货真不愧…
rime是一个非常优秀的输入法,linux平台下的反应速度远超搜狗,也没有隐私风险.2012年开始接触它,到后来抛弃了它,因为rime自带的词库真的太弱了,也懒得折腾.最近发现一个词库转换软件叫imewlconverter,于是发现rime导入其他输入法(比如搜狗)的词库其实还挺方便的. 要导入词库需要两个文件: 1. luna_pinyin_simp.custom.yaml 是配置文件 rime在部署的时候会自动加载.因为我用的是明月简体schema,所以是这个名字.如果你用的是明月schem…