Solr整合中文分词组件IKAnalyzer

【Solr整合中文分词组件IKAnalyzer】的更多相关文章

Solr整合中文分词组件IKAnalyzer

我用的Solr是4.10版本, 在csdn下载这个版本的IKAnalyzer:IK Analyzer 2012FF_hf1.zip 解压后目录如下: (1)这里还用solr自带的example实验分词效果,在如下的WEB-INF目录新建classes文件夹, 将IKAnalyzer.cfg.xml和stopword.dic拷贝到classes文件夹里面 (2)将IKAnalyzer2012FF_u1.jar拷贝到lib文件夹里面 (3)修改example\solr\collection1\con…

全文检索引擎Solr系列——整合中文分词组件IKAnalyzer

IK Analyzer是一款结合了词典和文法分析算法的中文分词组件,基于字符串匹配,支持用户词典扩展定义,支持细粒度和智能切分,比如: 张三说的确实在理智能分词的结果是: 张三 | 说的 | 确实 | 在理最细粒度分词结果: 张三 | 三 | 说的 | 的确 | 的 | 确实 | 实在 | 在理整合IK Analyzer比mmseg4j要简单很多,下载解压缩IKAnalyzer2012FF_u1.jar放到目录:E:\solr-4.8.0\example\solr-webapp\webap…

全文检索引擎Solr系列——整合中文分词组件mmseg4j

默认Solr提供的分词组件对中文的支持是不友好的,比如:“VIM比作是编辑器之神”这个句子在索引的的时候,选择FieldType为”text_general”作为分词依据时,分词效果是: 它把每一个词都分开了,可以想象如果一篇文章这样分词的搜索的体验效果非常差.能够和Solr集成的中文分词组件有很多,比如:mmseg4j.IkAnalyzer.ICTCLAS等等.各有各的特点.这篇文章讲述如何整合Solr与mmseg4j.mmeseg4j最新版本是1.9.1,下载解压,提取其中的三个文件:mms…

【Lucene3.6.2入门系列】第14节_SolrJ操作索引和搜索文档以及整合中文分词

package com.jadyer.solrj; import java.util.ArrayList; import java.util.List; import org.apache.solr.client.solrj.SolrQuery; import org.apache.solr.client.solrj.SolrServer; import org.apache.solr.client.solrj.SolrServerException; import org.apache.sol…