solr学习笔记-linux下配置solr(转)

本文地址：

http://zhoujianghai.iteye.com/blog/1540176

首先介绍一下solr：

Apache Solr (读音: SOLer) 是一个开源、高性能、采用Java开发、基于Lucene的全文搜索服务器，文档通过Http利用XML加到一个搜索集合中，查询该集合也是通过 http收到一个XML/JSON响应来实现。Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成，每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性，默认情况下这个属性的名字是 id，在 Schema 配置文件（schema.xml）中使用：<uniqueKey>id</uniqueKey>进行描述。solr有两个核心文件，solrconfig.xml和schema.xml。solrconfig.xml是solr的基础文件，里面配置了各种web请求处理器、请求响应处理器、日志、缓存等;schema.xml配置映射了各种数据类型的索引方案，分词器的配置、索引文档中包含的字段也在此配置。

工作中主要用来分词和搜索，简单的工作原理是：利用分词器对数据源进行分词处理，然后根据分词结果建立索引库;查询的时候，利用分词器对查询语句进行分词，根据查询语句分词的结果在索引库中进行匹配，最后返回结果。

废话少说，下面开始solr之旅吧：

一.安装JDK和Tomcat

（1）：安装jdk 下载jdk安装包，解压到jdk-1.x目录

（2）：安装tomcat，下载tomcat安装包，解压到apache-tomcat目录下

修改tomcat安装目录下的conf目录的server.xml

找到<Connector port="8080" .../>，加入URIEncoding="UTF-8"，为了支持中文。

设置Java和tomcat环境变量

上面两步比较简单，这里就只简单描述一下，不明白的可以网上查资料。

二. 安装solr

下载solr包，http://labs.renren.com/apache-mirror/lucene/solr/3.5.0/apache-solr-3.5.0.zip

解压缩到apache-solr目录，把apache-solr/dist目录下的apache-solr-3.5.0.war 复制到$TOMCAT_HOME/webapps目录下，重命名为solr.war

复制apache-solr/example/solr到tomcat根目录下（如果你想配置多core（实例），就复制apache-solr /example/multicore到tomcat根目录下，不用复制solr了），作为solr/home，以后也可以往该目录添加 core，每个core下面都可以有自己的配置文件。

在apache-tomcat/conf/Catalina/localhost/下创建solr.xml（跟webapps下的solr项目同名），指定solr.war和solr/home的位置，让tomcat启动时就自动加载该应用。

solr.xml内容如下：

<?xml version="1.0" encoding="UTF-8"?>

</Context>

然后在tomcat的bin目录下执行./startup.sh，启动tomcat

在地址栏访问http://localhost:8080/solr/

将会出现solr欢迎界面和admin入口

注：如果出现org.apache.solr.common.SolrException: Error loading class 'solr.VelocityResponseWriter' 异常，最简单的解决方法：找到$TOMCAT_HOME/solr/conf/solrconfig.xml，把<queryResponseWriter name="velocity" class="solr.VelocityResponseWriter" enable="${solr.velocity.enabled:true}"/>注释掉或者enable:false即可。如果一切顺利的话，现在可以看到solr的web管理界面了。不过要想实现分词的功能，得安装一个中文分词器，这里推荐IKAnalyzer或mmseg4j。

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包，采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力，采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用。支持用户词典扩展定。

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

三. 配置中文分词器

下面分别安装这两个中文分词器，当然选择安装其中一个也是可以的。

（1）安装IKAnalyzer

下载地址：http://code.google.com/p/ik-analyzer/downloads/list

在当前目录下新建IKAnalyzer目录，解压到该目录下：unzip IKAnalyzer2012_u5.zip -d ./IKAnalyzer

把IKAnalyzer目录下的IKAnalyzer2012.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

配置schema.xml，编辑$TOMCAT_HOME/solr/conf/schema.xml，在文件中添加下面这个fieldtype

注：下面的代码中多了很多“”标签，这个是设置字体时iteye编辑器自己生成的。

</analyzer>

</analyzer>

</fieldType>

添加一个索引字段field，并应用上面配置的fieldtype

然后找到这一句：<defaultSearchField>text</defaultSearchField>把它改成<defaultSearchField>game_name</defaultSearchField>

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp，就可以进行分词处理了。

IKAnalyzer添加自定义分词词典：词典文件格式为无BOM的UTF-8编码的文本文件,文件扩展名不限，一次可以添加多个词库，每个词库以";"分开。把IKAnalyzer 目录下的IKAnalyzer.cfg.xml和stopword.dic拷贝到$TOMCAT_HOME/webapps/solr/WEB_INF /classes目录下，可以自己新建一个mydic.dic文件，然后在IKAnalyzer.cfg.xml里进行配置。

（2）安装mmseg4j

下载地址：http://code.google.com/p/mmseg4j/downloads/list

在当前目录下新建mmseg4j目录，解压到该目录下：unzip mmseg4j-1.8.5.zip -d ./mmseg4j

把mmseg4j目录下的mmseg4j-all-1.8.5.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

配置schema.xml，编辑$TOMCAT_HOME/solr/conf/schema.xml，在文件中添加下面这个fieldtype

</tokenizer>

</analyzer>

</fieldtype>

</tokenizer>

</analyzer>

</fieldtype>

</tokenizer>

</analyzer>

</fieldtype>

注意：dicPath的值改成你自己机器上相应的目录。

然后修改之前添加的filed，让其使用mmseg4j分词器

配置mmseg4j分词词典：MMSEG4J的词库是可以动态加载的，词库的编码必须是UTF-8，mmseg4j 默认从当前目录下的 data 目录读取上面的文件，当然也可以指定别的目录，比如我就放在自定义的dict目录下。自定义词库文件名必需是 "words" 为前缀和 ".dic" 为后缀。如：/data/words-my.dic。

这里直接把mmseg4j/data目录下的所有.dic文件拷贝到$TOMCAT_HOME/solr/dict目录下。共有：4个dic文件，chars.dic、units.dic、 words.dic、 words-my.dic。下面简单解释一下这几个文件的作用。

1、chars.dic，是单个字，和对应的频率，一行一对，字在全面，频率在后面，中间用空格分开。这个文件的信息是 complex 模式要用到的。在最后一条过虑规则中使用了频率信息。

2、units.dic，是单位的字，如：分、秒、年。

3、words.dic，是核心的词库文件，一行一条，不需要其它任何数据（如词长）。

4、words-my.dic，是自定义词库文件

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp，就可以看到分词效果了。

现在，这两种分词方法都已配置好了，想用哪种就把查询的filed的type设置成哪种。

solr学习笔记-linux下配置solr(转)的更多相关文章

深度学习笔记------linux下配置安装caffe-cpu only模式
本文适合初学者学习配置caffe的最简单方法.这是我在看了网上各种大神的方法后总结的最傻瓜式的配置方法了. 本人也是在不断地配置caffe过程中受打击与成长@.@ 第一步.配置caffe所需的依赖环境 ...
Solr学习笔记之3、Solr dataimport - 从SQLServer导入数据建立索引
Solr学习笔记之3.Solr导入SQLServer数据建立索引一.下载MSSQLServer的JDBC驱动下载:Microsoft JDBC Driver 4.0 for SQL Server ...
Solr学习笔记之4、Solr配置文件简介
Solr学习笔记之4.Solr配置文件简介摘自<Solr in Action>. 1. solr.xml – Defines one or more cores per Solr ser ...
Java学习笔记——Linux下安装配置tomcat
朝辞白帝彩云间,千里江陵一日还. 两岸猿声啼不住,轻舟已过万重山. ——早发白帝城首先需要安装配置JDK,这里简单回顾下.Linux下用root身份在/opt/文件夹下创建jvm文件夹,然后使用ta ...
MongoDB学习笔记—Linux下搭建MongoDB环境
1.MongoDB简单说明 a MongoDB是由C++语言编写的一个基于分布式文件存储的开源数据库系统,它的目的在于为WEB应用提供可扩展的高性能数据存储解决方案. b MongoDB是一个介于关系 ...
LINUX学习笔记——LINUX下EXP命令全库备份数据库文件
LINUX下EXP命令全库备份数据库文件 1)建立备份目录,目录操作权限授权给Oracle用户 mkdir /backup --创建backup文件夹 cd / --进入cd语句 ls -l ...
Linux 程序设计学习笔记----Linux下文件类型和属性管理
转载请注明出处:http://blog.csdn.net/suool/article/details/38318225 部分内容整理自网络,在此感谢各位大神. Linux文件类型和权限数据表示文件 ...
Java学习笔记——Linux下安装配置MySQL
山重水复疑无路,柳暗花明又一村 --游山西村系统:Ubuntu 16.04LTS 1\官网下载mysql-5.7.18-linux-glibc2.5-x86_64.tar.gz2\建立工作组:$su ...
ffmpeg学习笔记-Linux下编译Android动态库
Android平台要使用ffmpeg就需要编译生成动态库,这里采用Ubuntu编译Android动态库文件准备要编译生成Android需要以下文件 NDK ffmpeg源代码 NDK下载 NDK可 ...

随机推荐

重启sphinx
connection to localhost:9312 failed 只能上传不能下载 /usr/sbin/setenforce 0 立刻关闭 SELINUX/usr/sbin/setenforce ...
ios最新调用手机相册选取头像(UIActionSheet过期)
由于 UIActionSheet过期所以可以使用如下调用手机相册前提不要忘记添加代理如下两个 UIImagePickerControllerDelegate,UINavigationControll ...
一款基于jquery固定于顶部的导航
今天给大家分享一款基于jquery固定于顶部的导航,这款导航当浏览器滚动条位于顶部时,导航高度较高,当浏览器滚动向下滚动时,导航高度自动减低,并位于顶部.效果图如下: 在线预览源码下载实现的代 ...
如何设置电脑的固定IP地址
大家在上网时电脑的IP地址往往都是自动选择的,但在局域网内有时会方便共享文件和监控流量等操作时需要固定的IP地址.下面将简单介绍如何手设置电脑的固定IP地址. 百度经验:jingyan.baidu.c ...
【Unity笔记】协程Coroutine的简单优化
一个最简单的协程,也至少需要2帧才能完成.第一帧走到yield return null停止,第二帧从此处接着执行完下面的操作.需求:如果缓存中存在某数据则直接使用,否则联网异步下载. private ...
warning: incompatible implicit declaration of built-in function 'exit'
warning: incompatible implicit declaration of built-in function 'exit' 解决方法: 在头文件里引入 stdlib 文件, #i ...
NYOJ-451-光棍节的快乐
光棍节的快乐时间限制:1000 ms | 内存限制:65535 KB 难度: 描写叙述光棍们,今天是光棍节.聪明的NS想到了一个活动来丰富这个光棍节. 规则例如以下: 每一个光棍在一个纸条上写 ...
关于Cocos2d-x中MoveTo等动作位置坐标和setPosition的位置坐标的区别
setPosition设置的坐标使用的是锚点的位置,会根据锚点的改变而有所不同而MoveTo等动作位置坐标使用的是物体中心的位置,不受锚点的影响
linux -- Apache执行权限
最近在用php调用exec方法去执行一个linux终端下的命令,结果每次都不能执行成功,网上多番搜寻,最终找到一篇有用的文章,主要原因是因为Apache的执行权限的问题.以下是原文(稍加修改): 利用 ...
linux -- ubuntu 何为软件源
新手学Ubuntu的时候,一般不知道什么是源,但源又是Ubuntu下常用到的东西.因此,本文就详细介绍一下Ubuntu 源. 什么是软件源? 源,在Ubuntu下,它相当于软件库,需要什么软件,只要记 ...

solr学习笔记-linux下配置solr(转)

http://zhoujianghai.iteye.com/blog/1540176

solr学习笔记-linux下配置solr(转)的更多相关文章

随机推荐

热门专题