paip 自定义输入法词库的备份导出以及导入 作者Attilax 艾龙,  EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/attila /////////64位win7 哈的使用问题. 能安装..但是系统环境中不能直接使用.. 在应用中能使用了. //////////备份导出 普通的32位机器,直接备份导出 64位机器,备份导出默认的功能不能使用..需要 search eveything 到个main.dmg ,不个这…
paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 作者Attilax  艾龙,  EMAIL:1466519819@qq.com  来源:attilax的专栏 地址:http://blog.csdn.net/attilax ver:2012 IKAnalyzer 的默认词库的匹配度可能不好..可以使用扩展词库... 但是,更好的办法是,禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 需要实现Configuration接口,实现getMainDictionary以及…
paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库. mmseg默认词库只能是文件格式...不好维护..要是不个词库放的个数据库里面走好维护兰.. 要实现2个目标..: 1.禁用默认词库,仅仅使用自定义词库 2.词库从数据库读取,而不使用默认的文件方式,方便维护.. 作者Attilax  艾龙,  EMAIL:1466519819@qq.com  来源:attilax的专栏 地址:http://blog.csdn.net/attilax Dictionary.getI…
paip.ikanalyzer 重加载词库的方法. 作者Attilax  艾龙,  EMAIL:1466519819@qq.com  来源:attilax的专栏 地址:http://blog.csdn.net/attilax if(WordsLibController.lastWordsLib!=null)   {   dictionary.disableWords(WordsLibController.lastWordsLib);      } WordsLibController.lastW…
为什么用Rime 13年底的时候,日本爆出百度的日本版本输入法的问题,要求政府人员停用,没当回事,反正我没用,当然了,有关搜狗和用户隐私有关的问题就一直没有中断过,也没太在意.但,前几天McAfee爆出的某输入法用户敏感数据未加密传输的问题,就让人担心了. 好吧,既然这样,还是卸了第三方的输入法吧,虽然Yosemite自带的输入法已经进步很大了,但是总是用的不顺手,也想念自己多年在搜狗输入法上积累的词库.既然这样,那就只能考虑自己动手丰衣足食的问题了. 有关“Rime鼠须管”输入法,在各类MAC…
[输入法]向Android端Gboard字典中导入PC端搜狗细胞词库 环境 Android 5.1.1 Gboard 8.7.10.272217667-release -armeabi-v7a PC端工具需要 词库转换器(深蓝词库转换2.6) 编辑器(需要有正则表达式的替换功能以及改编字符编码的功能,个人用的Notepad++7.8) 步骤 1. 在搜狗词库官网下载自己需要的细胞词库. 文件格式为.scel,双击可以导入到搜狗输入法的词库.现在不用双击导入,记住文件路径即可. 2. 用词库转换器…
为PC端Google拼音输入法增加词库 为什么折腾词库 都在说百度.讯飞等输入法上传用户词库,为了安全建议大家使用google输入法之类,话说回来,要想使用智能联想功能是不是就得把你输入习惯放在他的里面跑一圈才能知道你的输入习惯吧? 用什么输入法都是个人习惯,不过自打有了智能ABC拼音输入法的时候已经有本机记录输入词频的功能,个人还是喜欢Google拼音输入法,电脑端.手机端(我不是miboy)都安装. 因为各种原因,目前google拼音输入法的词库同步功能无法使用,重装系统之后除了把自己备份的…
距离上一次大版本的发布已经很久很久了,中间是不是会收到一些用户的来信,提出新的需求,于是只是做小版本的更新,终于积累了一些更新后,打算做个大版本的发布了. 深蓝词库转换是一个输入法的词库互转和生成软件,支持市面上主流的各种输入法软件的词库(加密的除外)和各种输入法(拼音.五笔.二笔,甚至台湾的注音.仓颉等),除了汉语还支持英文词库的导入导出以及根据词典生成英文输入法词库. 说回这次新版本的发布,除了修复之前版本中的Bug外,主要是实现了以下新功能: 1.支持手心输入法 手心输入法是最近几年横空出…
paip.输入法编程---词库多意义条目分割 python实现. ==========子标题 python mysql 数据库操作 多字符分隔,字符串分割 字符列表循环  作者 老哇的爪子 Attilax 艾龙,  EMAIL:1466519819@qq.com 来源: http://blog.csdn.net/attilax ===================主要的流程 词库原来格式 carp      n.鲤鱼:v.吹毛求疵    813 需要意义分割.. 主要的流程如下: for  …
paip.输入法英文词库的处理 python 代码 o4 目标是eng>>>中文>>atian 当输入非atian词的时候儿,能打印出 atian pinyin >>>english提示..  ,在根据英文输入.. =====下载源词库 要下载一个格式好的词库文件还是很困难的..几乎没..只好自己写兰... 下载一个-GRE 8k词库..excel,删除不要的datasheet,导入mysql 格式如下: abandon    v./n.放弃:放纵    …
详细代码:https://github.com/cxcn/dtool 前言 .def 是百度手机输入法-更多设置-自定义输入方案所使用的格式. 解析 码表偏移量 0x6D # 占用字节数 描述 a 1 编码长度(红色框) b 1 词长 * 2 + 2 a 编码(黄色框),可以是纯编码,也可以是 编码=位置 b-2 词(绿色框),utf16-le 编码 6 6 个空字节代表词条结束 代码实现: r.Seek(0x6D, 0) // 从 0x6D 开始读 for r.Len() > 4 { code…
rime是一个非常优秀的输入法,linux平台下的反应速度远超搜狗,也没有隐私风险.2012年开始接触它,到后来抛弃了它,因为rime自带的词库真的太弱了,也懒得折腾.最近发现一个词库转换软件叫imewlconverter,于是发现rime导入其他输入法(比如搜狗)的词库其实还挺方便的. 要导入词库需要两个文件: 1. luna_pinyin_simp.custom.yaml 是配置文件 rime在部署的时候会自动加载.因为我用的是明月简体schema,所以是这个名字.如果你用的是明月schem…
搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 'ni'kan'zhe 你看着 'ni'kan'zhe'ban 你看着办 'ni'kan'zhe'jiu'xing 你看着就行 'ni'kao'bu'kao 你考不考 'ni'kao'de 你考得 'ni'kao'wan 你考完 'ni'kao'yan 你考研 'ni'kao'yan'ma 你考研吗…
div id="cnblogs_post_body" class="blogpost-body"> 最近彻底烦透了搜狗拼音输入法的各种流氓行为,自动升级不说,还在后台偷偷下载搜狗浏览器,卸了又下载,还自动弹出搜狐新闻,一怒之下把它卸载了,准备尝试一下开源的Rime输入法,至少没广告,据说可配制度还很高. 首先去 http://rime.im 下载小狼毫输入法的安装程序进行安装: 安装好后设置,我只选择了“朙月拼音”和“朙月拼音简化字”两种输入法,话说这货真不愧…
详细代码:https://github.com/cxcn/dtool 前言 .qpyd 是 QQ 拼音输入法 6.0 以下版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn/v1/ 下载. 该格式解析的主要难点是其使用了 zlib 压缩,解压后的数据很好解析. 解析 原始文件 0x38 后跟的 4 字节表示压缩数据开始的字节. 0x44 后跟的 4 字节表示词条数. 0x60 - 0x16F 是词库的一些描述信息. 其余未知. 解压数据 使用了 zlib 格式. 我们…
详细代码:https://github.com/cxcn/dtool 前言 .uwl 是紫光拼音输入法(现在叫华宇拼音输入法)使用的词库. 解析 紫光的词库有点复杂,拼音用的索引,但是拼音表没有写在词库里. 好在深蓝词库转换工具已经解析好了,这部分就跳过了. 词长和拼音长关系密切,要注意. 主要词库部分每 1024 字节为一段(分段意义何在?) 前两个字节未知,第 3 个字节表示字符编码格式 0x08 是 GBK,0x09 是 UTF-16LE. 范围 描述 0x04 - 0x23 词库名 0x…
详细代码:https://github.com/cxcn/dtool 前言 .scel 是搜狗拼音输入法所使用的细胞词库格式,可以在 https://pinyin.sogou.com/dict/ 下载. .qcel 是 QQ 拼音输入法 6.0 以上版本所用的词库格式,可以在 http://cdict.qq.pinyin.cn/ 下载. 解析 # 范围 描述 0x00 - 0x11F 未知 a 0x120 - 0x123 不展开重码的词条数(编码数) b 0x124 - 0x127 展开重码的词…
详细代码:https://github.com/cxcn/dtool 前言 微软拼音和微软五笔通用的用户自定义短语 dat 格式. 解析 前 8 个字节标识文件格式 machxudp,微软五笔的 lex 格式是 imscwubi. 下面 8 个字节应该是版本号. 接下来每 4 字节一组,分别表示偏移表开始.词条开始.文件总长.词条数.导出的时间戳. 然后补 0 一直到偏移表开始. 偏移表记录了每个词条从词条开始的偏移量,每 4 个字节一组. 接下来就是词条本体部分: # 占用字节数 描述 4 1…
详细代码:https://github.com/cxcn/dtool 前言 mb 是极点五笔的码表格式. 解析 偏移量 描述 0x00 版本信息 0x1B 码表介绍 0x11F 所用到的按键数 0x120 所用到的按键,utf-16le 0x154 万能键 0x156 编码截止键 0x176 组词规则 0x176 组词规则 0x194 径直上屏的标点 0x1B4 特殊符号引导符 0x1B8 未知 0x1B620 左右 码表 上图选中部分解析为 五笔点儿词库2022春 QQ群313225526 生…
前言 .bdict 是百度的分类词库格式,可以在 https://shurufa.baidu.com/dict 下载. 手机百度的分类词库格式 .bcd 是一样的,可以在 https://mime.baidu.com/web/iw/index/ 下载. 解析 范围 描述 0x70 - 0x73 词条数 0x90 - 0xCF 词库名 0xD0 - 0x10F 词库作者 0x110 - 0x14F 示例词 0x150 - 0x34F 词库描述 有的词库在 0x250 开始的后 4 个字节是大端序的…
paip.输入法编程---输入法ATIaN历史记录 c823 作者Attilax ,  EMAIL:1466519819@qq.com 来源:attilax的专栏 地址:http://blog.csdn.net/attilax 7.24 ------------ 3500 单字,3000词组(全拼形式+单声母形式) ------2013.7.27 wen缩写on,yen缩写in , 词组改为(ssha形式) ------2013.7.29 字频调整: 500高频字,第一级汉字1000字,第二级汉…
paip.多维理念 输入法的外码输入理论跟文字输出类型精髓 通常,我们的输入法使用的外码是拼音,但是,这个的用户体验很差.. 应该使用多个外码类型... ##按照词汇来源,有如下几个 固有词ati 来自english英文 other语言(西班牙语,阿拉伯语,粤语,汉语,日语,韩语etc) ##外码使用的文字 only  拉丁文.. ##外码的拼写格式 ati 英文词::  english原文 或者  ati_english格式 别的语言::  统统使用ati_xx格式拼写.. 作者 老哇的爪子…
本文告诉大家在 WPF 写一个自定义的文本框,如何实现让输入法跟随光标 本文非小白向,本文适合想开发自定义的文本框,从底层开始开发的文本库的伙伴.在开始之前,期望了解了文本库开发的基础知识 本文实现的效果如下 实现 本文的方法参考了 WPF 官方仓库的逻辑,可以在 WPF 仓库的 wpf\src\Microsoft.DotNet.Wpf\src\PresentationFramework\System\Windows\Documents\ImmComposition.cs 文件看到官方是如何让…
paip.数据挖掘--导出词库 清理太长的iptcode 原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替... 而个,要不个那清理给挂了.. #keyword python 文件读写rwrite  unicode #清理规则:长度大的9,  而且含有nonex 作者 老哇的爪子 Attilax 艾龙,  EMAIL:1466519819@qq.com 来源: http://blog.csdn.net/attilax #主要的算法如下 x=r"c:\导…
一,分词系统地址:https://github.com/NLPchina/ansj_seg 二,为什么选择ansj? 1.项目需求: 我们平台要做手机售后的舆情分析,即对购买手机的用户的评论进行分析.分析出手机每个模块(比如:相机,充电等.这些大模块还需要细分,比如充电又可以分:充电慢,没有快充等)的好差评,并且计算差评率,供开发后续改进.之前一直是人工分析,随着评论的增加,这一块也是一个很大的工作量.因此我们想到了做评论的自动分析.这就要用到自然语言处理的技术了. 2.ansj的优点 分词效率…
原文链接http://blog.csdn.net/whzhaochao/article/details/50130605 IKanalyzer分词器 IK分词器源码位置 http://git.oschina.net/wltea/IK-Analyzer-2012FF IKanalyzer源码基本配置 如图所示是IKanlyzer加载默认配置的路径 项目中配置扩展词库 如图所示,当我们导入Ikanlyzer jar包后,使用扩展词库只需要在项目的src根目录下建立IKAnalyzer.cfg.xml…
需要包:IKAnalyzer2012_FF_hf1.jarlucene-core-5.5.4.jar需要文件: IKAnalyzer.cfg.xmlext.dicstopword.dic 整理好的下载地址:http://download.csdn.net/detail/talkwah/9770635 import java.io.IOException; import java.io.StringReader; import org.wltea.analyzer.cfg.Configuratio…
word: https://github.com/ysc/word word-1.3.1.jar 需要JDK8word-1.2.jar c语言给解析成了“语言”,自定义词库必须为UTF-8 程序一旦运行,停不下来!百度上百的主要是这个word分词,除了作者的微示例,没有别的例子,感觉全是作者自吹自擂出来的,不好用. import java.util.List; import org.apdplat.word.WordSegmenter; import org.apdplat.word.dicti…
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别 有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”.      如果我想根据自己的公司名称来查询,如“好记性不如烂笔头感叹号博客园” 如果我想根据自己公司里的产品名称来查询,如“” 如果我想根据某个网络上流行的词名称来查询,如“扫福” 那么,若直接使用es-ik则分不出来的,所以,这就是为什么需要es-ik的自定义词库的缘由啦! [hadoop@HadoopMas…
主要知识点: 知道IK默认的配置文件信息 自定义词库     一.ik配置文件     ik配置文件地址:es/plugins/ik/config目录     IKAnalyzer.cfg.xml:用来配置自定义词库 main.dic:ik原生内置的中文词库,总共有27万多条,只要是这些单词,都会被分在一起 quantifier.dic:放了一些单位相关的词 suffix.dic:放了一些后缀 surname.dic:中国的姓氏 stopword.dic:英文停用词     ik原生最重要的两个…