原文链接http://blog.csdn.net/whzhaochao/article/details/50130605 IKanalyzer分词器 IK分词器源码位置 http://git.oschina.net/wltea/IK-Analyzer-2012FF IKanalyzer源码基本配置 如图所示是IKanlyzer加载默认配置的路径 项目中配置扩展词库 如图所示,当我们导入Ikanlyzer jar包后,使用扩展词库只需要在项目的src根目录下建立IKAnalyzer.cfg.xml…
参考文章<用QQ拼音打五笔>中提供的信息而制作的小工具,功能是将QQ五笔导出词库文件转换为QQ拼音自定义短语使用的.ini格式文件,这样就可以使用QQ拼音进行五笔拼音混输了. 混输效果不错(设置方法见上述参考文章): 关键代码: void Button1Click(object sender, EventArgs e) { if(openFileDialog1.ShowDialog() == DialogResult.OK) { var lines = File.ReadAllLines(op…
1.后缀名.dic的词典文件,必须如使用文档里所说的 无BOM的UTF-8编码保存的文件.如果不确定什么是 无BOM的UTF-8编码,最简单的方式就是 用Notepad++编辑器打开,Encoding->选择 Encoding in UTF-8 without BOM,然后保存.2.项目preferences 里 编码选择 utf8.3.词典和IKAnalyzer.cfg.xml配置文件的路径问题.IKAnalyzer.cfg.xml必须在src根目录下.文件前面一定不要加/,否则是绝对路径找不…
1. 先安装libiconv# wget http://ftp.gnu.org/pub/gnu/libiconv/libiconv-1.13.1.tar.gz# tar -zxvf libiconv-1.13.1.tar.gz# cd libiconv-1.13.1# ./configure --prefix=/usr/local/libiconv# make# make install 2. 再安装libdatriecd /userfile/lsxz -d libdatrie-0.2.10.t…
(一)自定义和浏览器相关的关键字 以下代码GitHub 版本库地址: https://github.com/blairwind/blog_rf SeleniumLibrary的扩展文档中提供了3种增加SeleniumLibrary功能的方式. (1)Plugin API (2)EventFiringWebDriver (3)Extending SeleniumLibrary(实际就是继承SeleniumLibrary库) 这里采用继承SeleniumLibrary库的方式. 目录结构如下:这里我…
Elasticsearch之中文分词器插件es-ik 针对一些特殊的词语在分词的时候也需要能够识别 有人会问,那么,例如: 如果我想根据自己的本家姓氏来查询,如zhouls,姓氏“周”.      如果我想根据自己的公司名称来查询,如“好记性不如烂笔头感叹号博客园” 如果我想根据自己公司里的产品名称来查询,如“” 如果我想根据某个网络上流行的词名称来查询,如“扫福” 那么,若直接使用es-ik则分不出来的,所以,这就是为什么需要es-ik的自定义词库的缘由啦! [hadoop@HadoopMas…
为什么用Rime 13年底的时候,日本爆出百度的日本版本输入法的问题,要求政府人员停用,没当回事,反正我没用,当然了,有关搜狗和用户隐私有关的问题就一直没有中断过,也没太在意.但,前几天McAfee爆出的某输入法用户敏感数据未加密传输的问题,就让人担心了. 好吧,既然这样,还是卸了第三方的输入法吧,虽然Yosemite自带的输入法已经进步很大了,但是总是用的不顺手,也想念自己多年在搜狗输入法上积累的词库.既然这样,那就只能考虑自己动手丰衣足食的问题了. 有关“Rime鼠须管”输入法,在各类MAC…
一,分词系统地址:https://github.com/NLPchina/ansj_seg 二,为什么选择ansj? 1.项目需求: 我们平台要做手机售后的舆情分析,即对购买手机的用户的评论进行分析.分析出手机每个模块(比如:相机,充电等.这些大模块还需要细分,比如充电又可以分:充电慢,没有快充等)的好差评,并且计算差评率,供开发后续改进.之前一直是人工分析,随着评论的增加,这一块也是一个很大的工作量.因此我们想到了做评论的自动分析.这就要用到自然语言处理的技术了. 2.ansj的优点 分词效率…
摘要:对于中文的搜索来说,词库系统是一个很比较重要的模块,本篇以IK分词器为例子,介绍如何让分词器从缓存或文件系统中自动按照一定频次进行加载扩展词库 Lucene.Solr或ElasticStack如何从外部动态加载词库进入到内存作为分词使用,且这一系列动作不需要重启相应的搜索服务?当前市面上各种博客.论坛都是各种转载或者只是最简单的使用IK,根本无法达到线上使用的条件,而IK分词器默认是一次启动将主词库.停用词以及扩展词库全部加载完毕,后续如果再想要增加额外的扩展词就必须得修改对应的扩展词表并…
最近利用晚上的时间,对很久没有新版本发布的深蓝词库转换进行了版本升级.本次升级主要包含的功能包括: 一.支持Win10自带的微软五笔输入法用户自定义短语的导入导出. 1.在转换输入法词库列表中选择“Win10微软五笔(自定义短语)”,程序会在同一个目录生成.dat文件. 2.在微软五笔的选项中,找到用户自定义短语,点击“添加或编辑自定义短语”. 3.点击“导入”按钮,选中我们刚才生成的.dat文件即可完成自定义短语的导入: 用同样的操作,如果是点击“导出”按钮,可以导出现有的自定义短语,并在深蓝…