多核心的概念

多核心说白了就是多索引库。也可以理解为多个"数据库表"

说一下使用multicore的真实场景，比若说，产品搜索和会员信息搜索，不使用多核也没问题，这样带来的问题是 indexs文件很多，而且产品的索引文件和会员信息的索引文件混在一起，备份也是个问题。如果使用了多核，那就很轻松了，产品和会员就可使用不同的URL进行提交了，业务上也很清晰，生成的索引文件也不会混在一起，也容易备份。

每个索引库通过相对独立的url访问。

多核心的配置

还记得solr home吗，既然配置多核心，那么我们可以新建一个目录作为solr home，从零开始搭建，这样理解会更深（记得在tomcat中修改solr home路径）。

我这里使用的solr home路径为：D:\Installed Applications\SolrIndex，之后将solr解压，将solr-4.9.0\example\multicore下的所有文件copy到solr home。

可以看到里面有core0和core1两个核心，和一个solr.xml。core0和core1从名字就可以看出来是两个示例核心，文件结构非常简单，就只有两个文件，schema.xml和solrconfig.xml，所以我们可以根据需要修改或新建核心，只要根据实例核心的目录结构就好。接下来是schema.xml，这个文件相当于告诉solr，有多少核心和核心的名字及核心的位置：

结构如下：

<cores adminPath="/admin/cores" host="${host:}" hostPort="${jetty.port:8983}" hostContext="${hostContext:solr}">
<core name="core0" instanceDir="core0" />
<core name="core1" instanceDir="core1" />
<shardHandlerFactory name="shardHandlerFactory" class="HttpShardHandlerFactory">
<str name="urlScheme">${urlScheme:}</str>
</shardHandlerFactory>
</cores>

shardHandlerFactory暂时不管，主要修改core，name是核心的名字，instanceDir是核心的路径，默认是当前目录，这个最好保持一致，即加入核心名字是core0，那么就在solr home下新建一个core0文件夹，里面放入配置文件，那么这就是一个核心。

我修改后的solr.xml配置如下：

<cores adminPath="/admin/cores" host="${host:}" defaultCoreName="Artist" hostPort="${port:8983}" hostContext="${hostContext:solr}">
<core name="AritstCategory" instanceDir="AritstCategory" />
<core name="Artist" instanceDir="Artist" />
<core name="Song" instanceDir="Song" />
<core name="SongArtist" instanceDir="SongArtist" />
<core name="SongCategory" instanceDir="SongCategory" />
<core name="SongMenu" instanceDir="SongMenu" />
<core name="SpaceAudio" instanceDir="SpaceAudio" />
<core name="SpaceVideo" instanceDir="SpaceVideo" />
<core name="SpaceAVNum" instanceDir="SpaceAVNum" />
<shardHandlerFactory name="shardHandlerFactory" class="HttpShardHandlerFactory">
<str name="urlScheme">${urlScheme:}</str>
</shardHandlerFactory>
</cores>

目录结构如下：

可能大家已经注意到配置有下列内容：

<cores adminPath="/admin/cores" host="${host:}" defaultCoreName="Artist" hostPort="${port:8983}" hostContext="${hostContext:solr}">

AdminPath是指url路径

Host是指主机名

defaultCoreName是指默认使用的核心（不配置也完全可以）

hostPort是指访问的端口（跟tomcat的端口保持一致）

hostContext是指主机的上下文，也就是webapps中solr的项目名

其实有点像tomcat项目的配置。

多核心的访问

开启tomcat服务，访问：localhost:8983/solr

如下图所示：

即可看到多个核心。当然也可以在url上访问不同核心库：

Localhost:8983/solr/admin/coreName

刚说的defaultCoreName也就是说，如果没指定访问的核心，默认访问哪个核心的作用。

分词器简介与配置

Solr默认是没有中文分词的，其中solr默认的比较常用的数据类型有下面几种：string、long、int。详细的请看我的另外一篇博客：一、Solr综述

我用的是IK分词器，是国人做的一个开源的分词器，所以主要说下IK分词器的配置。

下载

下载 "IK Analyzer 2012FF_hf1.zip"包。详见http://zhengchao730.iteye.com/blog/1833000

解压

解压后的目录结构：

其中已经有比较详细的文档了，但是我发现文档中并没有对solr分词器的配置有详细的说明。所以请读者继续往下看。

配置

步骤一：将 IKAnalyzer2012FF_u1.jar拷贝到目录"$TOMCAT_HOME \webapps\solr\WEB-INF\lib"中

步骤二：将IKAnalyzer.cfg.xml、stopword.dic拷贝到目录$TOMCAT_HOME \webapps\solr\WEB-INF\classes目录下，没有则新建classes目录。

步骤三：在每个核心中的schema.xml中配置IK分词器：

<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

这样就可以使用ik分词器了。

其中isMaxWordLength是指分词的细粒度，可以分别制定index索引和query查询的分词细粒度，建议将index的isMaxWordLength设置为false，这样就采用最细分词，是索引更精确，查询时尽量能匹配，而将query的isMaxWordLength设置为true，采用最大分词，这样能够使查询出来的结果更符合用户的需求。

并且还有一点需要特别注意，我用的是solr4.9，所以需要把各核心schema.xml中的<schema name="example core zero" version="1.1">版本由1.1改为1.5

<schema name="example core zero" version="1.5">.

这样查询时分词才能成功，比如搜索中华人民共和国，如果不配置的话，默认是短语匹配，就只搜索文档中包含中华人民共和国的结果，但是如果配置了查询分词，那么中华、人民….都能被匹配。

IK分词器使用与测试

之后在schema.xml中配置一个field用于测试，如下：

<field name="Artist_Name" type="text_ik" indexed="true" stored="true"/>

然后打开solr的admin页面：

可以看到分词之后的效果。

三、Solr多核心及分词器（IK）配置的更多相关文章

Solr多核心及分词器（IK）配置
Solr多核心及分词器(IK)配置多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索 ...
我与solr(六)--solr6.0配置中文分词器IK Analyzer
转自:http://blog.csdn.net/linzhiqiang0316/article/details/51554217,表示感谢. 由于前面没有设置分词器,以至于查询的结果出入比较大,并且无 ...
转:solr6.0配置中文分词器IK Analyzer
solr6.0中进行中文分词器IK Analyzer的配置和solr低版本中最大不同点在于IK Analyzer中jar包的引用.一般的IK分词jar包都是不能用的,因为IK分词中传统的jar不支持s ...
如何在Elasticsearch中安装中文分词器(IK)和拼音分词器？
声明:我使用的Elasticsearch的版本是5.4.0,安装分词器前请先安装maven 一:安装maven https://github.com/apache/maven 说明: 安装maven需 ...
沉淀再出发：ElasticSearch的中文分词器ik
沉淀再出发:ElasticSearch的中文分词器ik 一.前言为什么要在elasticsearch中要使用ik这样的中文分词呢,那是因为es提供的分词是英文分词,对于中文的分词就做的非常不好了 ...
ElasticSearch搜索引擎安装配置中文分词器IK插件
近几篇ElasticSearch系列: 1.阿里云服务器Linux系统安装配置ElasticSearch搜索引擎 2.Linux系统中ElasticSearch搜索引擎安装配置Head插件 3.Ela ...
如何给Elasticsearch安装中文分词器IK
安装Elasticsearch安装中文分词器IK的步骤: 1. 停止elasticsearch 2.2的服务 2. 在以下地址下载对应的elasticsearch-analysis-ik插件安装包(版 ...
Solr安装中文分词器IK
安装环境 jdk1.7 solr-4.10.3.tgz KAnalyzer2012FF_u1.jar tomcat7 VM虚拟机redhat6.5-x64:192.168.1.201 Xshell4 ...
Solr 配置中文分词器 IK
1. 下载或者编译 IK 分词器的 jar 包文件,然后放入 ...\apache-tomcat-8.5.16\webapps\solr\WEB-INF\lib\ 这个 lib 文件目录下: IK 分 ...

随机推荐

（转）DevExpress GridView属性设置
GirdControl是数据的容器,它包含多种显示方式,GridView则是一种二维表格视图. 绑定数据源: List<Student> list = new List<Studen ...
CSS中伪类的使用
原文:http://www.cnblogs.com/guopei/archive/2011/04/16/2017627.html 何为伪类? 也就是实际实现了类的效果,但是并没有实际添加到标签中的类, ...
使用Canvas实现下雪功能
示例代码: <html> <head> <meta http-equiv="Content-Type" content="text/html ...
jQuery验证框架 .
目录视图摘要视图订阅 “程序人生”中国软件开发者职业生涯调查 CSDN社区“三八节”特别活动开发者职业生涯调查之未来 jQuery验证框架分类: JQuery 2 ...
开启Mysql慢查询来优化mysql
开启Mysql慢查询来优化mysql 优化sql语句是优化数据库的一个很重要的方面,那么怎么发现那些耗时耗资源的sql语句呢,开启Mysql慢查询! 1.查看是否开启慢查询,默认情况下是关闭的.你的m ...
【转】windows消息16进制对应表
来源:http://blog.sina.com.cn/s/blog_962250db0101d4mj.html windows mobile编程,无论使用eVC还是.net CF,都脱不开window ...
JavaScript 显示弹出窗口
window . showModalDialog ( sURL,vArguments , sFeatures )参数说明: sURL--必选参数,用来指定对话框要显示的文档的URL. //要显示页面的 ...
java数据流
DataInputStream和DataOutputStream提供了可以直接存取java基本类型(int,double等)的方法.对于存取基本类型,在效率上比普通字节流要快很多.它们分别继承inpu ...
你好，C++（30）“大事化小，小事化了”5.4.3 工资程序成长记：函数
5.4.3 工资程序成长记:函数自从上次小陈“程序员”的工资程序得到老板的夸奖,口头许诺给他涨工资以后,老板再也没有找过他,涨工资的事自然也就没有下文了.这天,老板又突然召他去办公室.这下可把小陈高 ...
ueditor从excel粘贴过来的表格不显示问题
这是设置表格边框可见的办法

三、Solr多核心及分词器（IK）配置