2.IKAnalyzer 中文分词器配置和使用

一、配置

IKAnalyzer 中文分词器配置，简单，超简单。

IKAnalyzer 中文分词器下载，注意版本问题，貌似出现向下不兼容的问题，solr的客户端界面Logging会提示错误。

给出我配置成功的版本IK Analyzer 2012FF_hf1（包含源码和中文使用手册），我的solr是4.7的，当然相应的Lucene也是4.7的，链接地址：

http://code.google.com/p/ik-analyzer/downloads/detail?name=IK%20Analyzer%202012FF_hf1.zip&can=2&q= 谷歌，不过貌似已经不能下载了，国内封杀了谷歌，tmd真蛋疼。

http://down.51cto.com/data/894638 51CTO上面的，有账号有积分的支持一下吧，我也是从人家那里下载的。

百度网盘，我自己共享的，时间久了就不一定还存在。链接：http://pan.baidu.com/s/1bngYiKZ 密码：g7dp

废话少说，下载后文件夹里至少有IKAnalyzer.cfg.xml、IKAnalyzer2012FF_u1.jar、stopword.dic，只需要配置这三个东西。

把IKAnalyzer2012FF_u1.jar拷贝到Tomcat的安装目录，我的是C:\apache-tomcat-8.0.8\webapps\solr\WEB-INF\lib\，把IKAnalyzer.cfg.xml、stopword.dic拷贝到C:\apache-tomcat-8.0.8\webapps\solr\WEB-INF\classes\，classes目录没有的话自行创建。

现在IKAnalyzer 中文分词器已经配置好了，是不是超简单，不要把目录搞错了就可以了。

二、使用

现在说使用，在你的scheme.xml配置（不清楚什么是scheme.xml，请移步到上一篇博客看看）文件找到<types></types>在中间加入

</fieldType>

然后在<fields>节点下增加一个节点：

注意field节点type里面的内容就是上面配置的fieldType，上面当于定义一个类，下面相当于用这个类定义一个变量。

这时你的PRODUCTNAME域就是通过IKAnalyzer分词器分词器进行分词的了。

现在我们来solr客户端界面测试一下分词器。重启一下Tomcat服务，打开http://localhost:8080/solr/#/

在这里找到我们的core，这里是可以配置多个core的，怎么配置后面再说，其实非常简单。这个core我也不知道叫什么（内核？核心？），但可以打个比方，比如你做电商搜索系统，你可以搜索商品，可以搜索店铺，那么你可以配置两个core，分别对应商品和店铺，这样你可以在不同的core下的配置文件里配置不同的field等，这是我暂时这样理解，有错误帮忙指正一下。这个不理解不要紧，后面我还有一系列的博客会说清楚。

这里默认是有一个叫collection1的，如果你刚才分词器配错了，这里可能就什么都没有了哦，这时可以看一下Logging是不是有错误日志，找到后点击下面的Analysis，在下拉框找到刚才配置的PRODUCTNAME

其实认真观察的话，会发现这个下拉框里面是有分类的，分成了Fields和Types，这个PRODUCTNAME在Fields节点下，还可以找到text_IKFENCHI在Types下，其实就是对应刚才配置的scheme.xml，选择其中一个都可以进行分词测试，我们可以在Field Value文本框里面输入一段话，点击Anayse Values按钮，就会显示分词结果。

至于分出的结果是什么意思，可以自行深入研究吧，后面如果我学到了再补充。

2.IKAnalyzer 中文分词器配置和使用的更多相关文章

Solr的学习使用之（三）IKAnalyzer中文分词器的配置
1.为什么要配置? 1.我们知道要使用Solr进行搜索,肯定要对词语进行分词,但是由于Solr的analysis包并没有带支持中文的包或者对中文的分词效果不好,需要自己添加中文分词器:目前呼声较高的是 ...
solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...
真分布式SolrCloud+Zookeeper+tomcat搭建、索引Mysql数据库、IK中文分词器配置以及web项目中solr的应用(1)
版权声明:本文为博主原创文章,转载请注明本文地址.http://www.cnblogs.com/o0Iris0o/p/5813856.html 内容介绍: 真分布式SolrCloud+Zookeepe ...
Solr入门之（8）中文分词器配置
Solr中虽然提供了一个中文分词器,但是效果很差,可以使用IKAnalyzer或Mmseg4j 或其他中文分词器. 一.IKAnalyzer分词器配置: 1.下载IKAnalyzer(IKAnalyz ...
Solr6.5.0配置中文分词器配置
准备工作: solr6.5.0安装成功 1.去官网https://github.com/wks/ik-analyzer下载IK分词器 2.Solr集成IK a)将ik-analyzer-solr6.x ...
Es学习第五课，分词器介绍和中文分词器配置
上课我们介绍了倒排索引,在里面提到了分词的概念,分词器就是用来分词的. 分词器是ES中专门处理分词的组件,英文为Analyzer,定义为:从一串文本中切分出一个一个的词条,并对每个词条进行标准化.它由 ...
windows 上配置solr5.2.1+solr4.3+中文分词器
搭建5.2.1 1.下载 Tomcat解压后的目录为 D:\Program Files\Apache Software Foundation\apache-tomcat-8.0.22 solr解压后的 ...
Lucene系列四：Lucene提供的分词器、IKAnalyze中文分词器集成、扩展 IKAnalyzer的停用词和新词
一.Lucene提供的分词器StandardAnalyzer和SmartChineseAnalyzer 1.新建一个测试Lucene提供的分词器的maven项目LuceneAnalyzer 2. 在p ...
elasticsearch中文分词器ik-analyzer安装
前面我们介绍了Centos安装elasticsearch 6.4.2 教程,elasticsearch内置的分词器对中文不友好,只会一个字一个字的分,无法形成词语,别急,已经有大拿把中文分词器做好了, ...

随机推荐

CSS选择器列表
h1 类型选择器选择元素的一个类型 .className 类选择器以class属性的值来选择元素,可以在一个页面中出现多个 #idName ID选择器以id属性的值来选择元素,在页面中是唯一的, ...
mysql 在windows下的安装，开发基础与要点
1:安装(windows下) 官网下载.msi文件运行安装时只需要安装server就行了在环境变量中配置到bin目录:e.g:C:\programFile\...mysql\bin 完成后进入wi ...
WPF资源字典使用
资源字典出现的初衷就在于可以实现多个项目之间的共享资源,资源字典只是一个简单的XAML文档,该文档除了存储希望使用的资源之外,不做任何其它的事情. 1. 创建资源字典创建资源字典的过程比较简单,只 ...
禁止chrome中CORS跨域资源共享错误
在开发中,可以通过命令行命令chrome --allow-file-access-from-files来禁止CORS错误. 只在紧急情况下使用这个方法,比如你的老板正站在你身后, 并且所有事情都无法 ...
[转]Windows与Linux系统下的库文件介绍
什么是库库文件是一些预先编译好的函数的集合,那些函数都是按照可再使用的原则编写的.它们通常由一组互相关联的用来完成某项常见工作的函数构成,从本质上来说库是一种可执行代码的二进制形式,可以被操作系 ...
完全不借助VS,编写C#控制台应用程序
(因为这个必须要借助控制台,所以必须是控制台应用程序) csc.exe是微软.NET Framework 中的C#编译器步骤如下: 1)用记事本写一个控制台应用程序的代码,保存在E盘,test.cs ...
twemproxy 安装
twemproxy 安装 1. 获取安装包 shell> wget http://ftp.gnu.org/gnu/autoconf/autoconf-2.69.tar.gz shell> ...
PHP二维数组排序函数
PHP一维数组的排序可以用sort(),asort(),arsort()等函数,但是PHP二维数组的排序需要自定义. 以下函数是对一个给定的二维数组按照指定的键值进行排序,先看函数定义: functi ...
转载自php 大牛的学习计划人生规划
2012年偶决定开始写博客了,不为别的,就希望可以通过博客记录我的成长历程同时也希望可以帮助一些刚毕业,刚入行业的兄弟姐们们.我们是一群充满浮躁.抱怨.迷茫的程序猿,想一想3年就这么过去了,社会变得更 ...
Linux中的段管理，bss段，data段，
Linux 的段管理, BSS段(bss segment)通常是指用来存放程序中未初始化的全局变量的一块内存区域.BSS是英文Block Started by Symbol的简称.BSS段属于静态内存 ...

2.IKAnalyzer 中文分词器配置和使用

2.IKAnalyzer 中文分词器配置和使用的更多相关文章

随机推荐

热门专题