要做一个根据词库进行筛选主要词汇的功能,去搜狗下载专业词汇词库时,发现是.scel文件,且通过转换工具(http://tools.bugscaner.com/sceltotxt/)转换为txt时报错如下,只能通过Java程序来转换了. 核心代码如下,涉及到四个类:FileProcessing.SougouScelFileProcessing.SougouScelModel.TxtFileProcessing 文件FileProcessing .java package cn.ucmed.impl…
由于项目中要用到词库,而下载的搜狗词库是.scel格式,所以就用python脚本将搜狗词库.scel格式文件转化为.txt格式文件. #!/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb try: reload(sys) sys.setdefaultencoding('utf-8') except: pass # 搜狗的scel词库就是保存的文本的unicode编码,每两…
div id="cnblogs_post_body" class="blogpost-body"> 最近彻底烦透了搜狗拼音输入法的各种流氓行为,自动升级不说,还在后台偷偷下载搜狗浏览器,卸了又下载,还自动弹出搜狐新闻,一怒之下把它卸载了,准备尝试一下开源的Rime输入法,至少没广告,据说可配制度还很高. 首先去 http://rime.im 下载小狼毫输入法的安装程序进行安装: 安装好后设置,我只选择了“朙月拼音”和“朙月拼音简化字”两种输入法,话说这货真不愧…
在 \(\text{Linux}\) 环境下,\(\text{Fcitx}\) 确实是最好用的开源输入法之一.然而 \(\text{Windows}\) 下的巨头输入法 -- 搜狗,对 \(\text{Linux}\) 的支持却并不算到位,迄今为止,大多数 \(\text{Linux}\) 的最新内核都无法使用搜狗,譬如 \(\text{Ubuntu 19.04}\) . 所以,\(\text{Linux}\) 下原生的开源输入法,无疑是一切意外状况下最值得信赖的输入法. 不过,\(\text{…
刚开始接触Linux的小伙伴可能比较懵逼,我要使用ibus输入法还是fcitx(小企鹅)输入法,其实这两种都不能说是输入法,Linux中输入法的使用是依赖于输入法框架的,其中搜狗输入法和百度输入法都是依赖于fcitx框架的,当然两种框架用什么依据个人爱好,对于小白选手还是推荐fcitx吧,因为搜狗用着真香啊.自带的输入法皮肤样式真的是一言难尽,词库也不符合中文的输入习惯,既然适应不了,我们就改造他. 接下来主要描述如何整合搜狗的皮肤和词库. 前提是你使用的Linux发行版已经安装了fcitx输入…
中文输入使用ibus-pinyin. 在ibus-pinyin里使用搜狗词库 # wget http://hslinuxextra.googlecode.com/files/sougou-phrases-full.7z# 7za x sougou-phrases-full.7z# cp ibus/android.db /usr/share/ibus-pinyin/db/android.db# 输入y确认覆盖…
package com.swift; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.InputStreamReader; import java.io.OutputStreamWriter; import java.util.ArrayList; import…
#!/usr/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb #搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母) #找出其每部分的偏移位置即可 #主要两部分 #1.全局拼音表,貌似是所有的拼音组合,字典序 # 格式为(index,len,pinyin)的列表 # index: 两个字节的整数 代表这个拼音的索引 # len:…
#环境需求 Python2 1 #!/bin/python # -*- coding: utf- -*- import struct import sys import binascii import pdb try: reload(sys) sys.setdefaultencoding('utf-8') except: pass # 搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母) # 找出其每部分的偏移位置即可 # 主要两部分 # .全局拼音表…
rime是一个非常优秀的输入法,linux平台下的反应速度远超搜狗,也没有隐私风险.2012年开始接触它,到后来抛弃了它,因为rime自带的词库真的太弱了,也懒得折腾.最近发现一个词库转换软件叫imewlconverter,于是发现rime导入其他输入法(比如搜狗)的词库其实还挺方便的. 要导入词库需要两个文件: 1. luna_pinyin_simp.custom.yaml 是配置文件 rime在部署的时候会自动加载.因为我用的是明月简体schema,所以是这个名字.如果你用的是明月schem…