solr4.5配置中文分词器mmseg4j

solr4.x虽然提供了分词器，但不太适合对中文的分词，给大家推荐一个中文分词器mmseg4j

mmseg4j的下载地址：https://code.google.com/p/mmseg4j/

通过以下几步就可以把mmseg4j分词器集成到solr中：

1、解压mmseg4j-1.9.1.zip，把dist下面的所有jar文件拷贝到你应用服务器下的solr/WEB-INF/lib中（如果你的应用服务器下面没有solr，请参考《solr部署到tomcat》）。

2、拷贝data到solr_home/solr中（与core文件平级），并改名为dic（请参考《solr部署到tomcat》）

3、进入到你想使用mmseg4j分词器的core中（此处以solr自带的collection1为例），用编辑器打开collection1/conf/schema.xml配置文件,添加如下代码：

<!-- mmseg4j分词器 -->

 <fieldType name="text_mmseg4j" class="solr.TextField" >

 <analyzer type="index">

 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->

 </analyzer>

 <analyzer type="query">

 <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="../dic" /><!--此处为分词器词典所处位置-->

 </analyzer>

 </fieldType>

4、引用mmseg4j分词器

上面我们已经定义了mmseg4j分词器，如何引用呢？

用编辑器打开collection1/conf/schema.xml配置文件，找到<fields>…</fields>,修改需要使用中文分词的字段，type=”text_mmseg4j”

<fields>

.......//省略

<field name="name" type="text_mmseg4j" indexed="true" stored="true" />

</fields>

通过以上步骤就可以成功配置mmseg4j分词器到solr中了。

本文出自 luoshengsha.com，转载时请注明出处及相应链接。

本文永久链接:http://www.luoshengsha.com/170.html

solr4.5配置中文分词器mmseg4j的更多相关文章

5.Solr4.10.3中配置中文分词器
转载请出自出处:http://www.cnblogs.com/hd3013779515/ 1.下载IK Analyzer 2012FF_hf1.zip并上传到/home/test 2.按照如下命令安装 ...
ElasticSearch搜索引擎安装配置中文分词器IK插件
近几篇ElasticSearch系列: 1.阿里云服务器Linux系统安装配置ElasticSearch搜索引擎 2.Linux系统中ElasticSearch搜索引擎安装配置Head插件 3.Ela ...
solr8.2 环境搭建配置中文分词器 ik-analyzer-solr8 详细步骤
一.下载安装Apache Solr 8.2.0 下载地址:http://lucene.apache.org/solr/downloads.html 因为是部署部署在windows系统上,所以下载zip ...
转:solr6.0配置中文分词器IK Analyzer
solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持s ...
我与solr(六)--solr6.0配置中文分词器IK Analyzer
转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无 ...
Solr6.5配置中文分词器
Solr作为搜索应用服务器,我们在使用过程中,不可避免的要使用中文搜索.以下介绍solr自带的中文分词器和第三方分词器IKAnalyzer. 注:下面操作在Linux下执行,所添加的配置在windo ...
solr配置中文分词器
配置IK分词器在/opt/solr-7.7.1/server/solr-webapp/webapp/WEB-INF/lib目录中加入IK分词器的jar包在/opt/solr-7.7.1/serve ...
配置中文分词器 IK-Analyzer-Solr7
先下载solr7版本的ik分词器,下载地址:http://search.maven.org/#search%7Cga%7C1%7Ccom.github.magese分词器GitHub源码地址:http ...
solrcloud配置中文分词器ik
无论是solr还是luncene,都对中文分词不太好,所以我们一般索引中文的话需要使用ik中文分词器. 三台机器(192.168.1.236,192.168.1.237,192.168.1.238)已 ...

随机推荐

Unity GameObject.activeSelf, GameObject.activeInHierarchy，GameObject.SetActive和SetActiveRecursively
activeSelf(read only只读):物体本身的active状态,对应于其在inspector中的checkbox是否被勾选activeInHierarchy(read only只读):物体 ...
hdu 1757 A Simple Math Problem （矩阵快速幂，简单）
题目也是和LightOJ 1096 和LightOJ 1065 差不多的简单题目. #include<stdio.h> #include<string.h> #include ...
eclipse配置mahout
1.在elcipse上建立一个java project 项目名:mymahout 2.建立libs文件夹,在mahout 0.9的lib文件夹下找到一下java包其中log4j.properties ...
【POJ3243】拓展BSGS（附hash版）
上一篇博文中说道了baby step giant step的方法(简称BSGS),不过对于XY mod Z = K ,若x和z并不互质,则不能直接套用BSGS的方法了. 为什么?因为这时候不存在逆元了 ...
Enum枚举简单的使用
在枚举中使用抽象方法 /** * 为枚举类定义一个抽象方法,<br/> * 这个抽象方法由不同的枚举值提供不同的实现 * * @author wangzhu * @date 2014-9- ...
Protege汉字不能正常显示问题
在Protege5.0中有下面的问题: 点击uses,汉字不能正常显示. 在qq群里面问到,可以通过设置label的方式,在对类,子类命名成英语的,点击annotations,在label中设置汉字名 ...
pancake sort的几个问题
1. 每次找剩下序列中的最大值,可以进行pancake sort,时间复杂度是O(n^2): 2. 求最少交换次数进行pancake sort的问题是个NP问题,搜索的时候,upper bound是2 ...
OpenRisc-52-run openrisc&orpmon on ml501 board
引言之前关于openrisc的内容,几乎都是基于opencores官方的ordb2a那个开发板的,但是,实际情况是有那个板子的人不是很多,所以目前我在做一个与之类似的板子,并且很快就会跟大家见面,这 ...
Android权限安全(4)在什么时候检验权限?
Android独有的Service等 : 通过PM的CheckPermission 其中 pm 是package manager services 非Android特有的Service等 : 映射为O ...
BZOJ 2440 完全平方数（莫比乌斯-容斥原理）
题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=2440 题意:给定K.求不是完全平方数(这里1不算完全平方数)的倍数的数字组成的数字集合S ...

solr4.5配置中文分词器mmseg4j

solr4.5配置中文分词器mmseg4j的更多相关文章

随机推荐

热门专题