Apache Solr采用Java开发、基于Lucene的全文搜索服务器

http://docs.spring.io/spring-data/solr/

首先介绍一下solr：

Apache Solr (读音: SOLer) 是一个开源、高性能、采用Java开发、基于Lucene的全文搜索服务器，文档通过Http利用XML加到一个搜索集合中，查询该集合也是通过 http收到一个XML/JSON响应来实现。Solr 中存储的资源是以 Document 为对象进行存储的。每个文档由一系列的 Field 构成，每个 Field 表示资源的一个属性。Solr 中的每个 Document 需要有能唯一标识其自身的属性，默认情况下这个属性的名字是 id，在 Schema 配置文件（schema.xml）中使用：<uniqueKey>id</uniqueKey>进行描述。solr有两个核心文件，solrconfig.xml和schema.xml。solrconfig.xml是solr的基础文件，里面配置了各种web请求处理器、请求响应处理器、日志、缓存等;schema.xml配置映射了各种数据类型的索引方案，分词器的配置、索引文档中包含的字段也在此配置。

工作中主要用来分词和搜索，简单的工作原理是：利用分词器对数据源进行分词处理，然后根据分词结果建立索引库;查询的时候，利用分词器对查询语句进行分词，根据查询语句分词的结果在索引库中进行匹配，最后返回结果。

废话少说，下面开始solr之旅吧：

一.安装JDK和Tomcat

（1）：安装jdk 下载jdk安装包，解压到jdk-1.x目录

（2）：安装tomcat，下载tomcat安装包，解压到apache-tomcat目录下

修改tomcat安装目录下的conf目录的server.xml

找到<Connector port="8080" .../>，加入URIEncoding="UTF-8"，为了支持中文。

设置Java和tomcat环境变量

上面两步比较简单，这里就只简单描述一下，不明白的可以网上查资料。

二. 安装solr

下载solr包，http://labs.renren.com/apache-mirror/lucene/solr/3.5.0/apache-solr-3.5.0.zip

解压缩到apache-solr目录，把apache-solr/dist目录下的apache-solr-3.5.0.war 复制到$TOMCAT_HOME/webapps目录下，重命名为solr.war

复制apache-solr/example/solr到tomcat根目录下（如果你想配置多core（实例），就复制apache-solr/example/multicore到tomcat根目录下，不用复制solr了），作为solr/home，以后也可以往该目录添加 core，每个core下面都可以有自己的配置文件。

在apache-tomcat/conf/Catalina/localhost/下创建solr.xml（跟webapps下的solr项目同名），指定solr.war和solr/home的位置，让tomcat启动时就自动加载该应用。

solr.xml内容如下：

<?xml version="1.0" encoding="UTF-8"?>

</Context>

然后在tomcat的bin目录下执行./startup.sh，启动tomcat

在地址栏访问http://localhost:8080/solr/

将会出现solr欢迎界面和admin入口

注：如果出现org.apache.solr.common.SolrException: Error loading class 'solr.VelocityResponseWriter' 异常，最简单的解决方法：找到$TOMCAT_HOME/solr/conf/solrconfig.xml，把<queryResponseWriter name="velocity" class="solr.VelocityResponseWriter" enable="${solr.velocity.enabled:true}"/>注释掉或者enable:false即可。如果一切顺利的话，现在可以看到solr的web管理界面了。不过要想实现分词的功能，得安装一个中文分词器，这里推荐IKAnalyzer或mmseg4j。

IKAnalyzer是一个开源的，基于java语言开发的轻量级的中文分词工具包，采用了特有的“正向迭代最细粒度切分算法“，具有60万字/秒的高速处理能力，采用了多子处理器分析模式，支持：英文字母（IP地址、Email、URL）、数字（日期，常用中文数量词，罗马数字，科学计数法），中文词汇（姓名、地名处理）等分词处理。优化的词典存储，更小的内存占用。支持用户词典扩展定。

mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器，并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。MMSeg 算法有两种分词方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四个规则过虑。官方说：词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

三. 配置中文分词器

下面分别安装这两个中文分词器，当然选择安装其中一个也是可以的。

（1）安装IKAnalyzer

下载地址：http://code.google.com/p/ik-analyzer/downloads/list

在当前目录下新建IKAnalyzer目录，解压到该目录下：unzip IKAnalyzer2012_u5.zip -d ./IKAnalyzer

把IKAnalyzer目录下的IKAnalyzer2012.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

配置schema.xml，编辑$TOMCAT_HOME/solr/conf/schema.xml，在文件中添加下面这个fieldtype

注：下面的代码中多了很多“”标签，这个是设置字体时iteye编辑器自己生成的。

<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false" />
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0" splitOnCaseChange="1" />
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
</analyzer>
<analyzer type="query">
<tokenizer class = "org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />
<filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0" splitOnCaseChange="1" />
<filter class="solr.LowerCaseFilterFactory" />
<filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt" />
<filter class="solr.RemoveDuplicatesTokenFilterFactory" />
</analyzer>
</fieldType>

添加一个索引字段field，并应用上面配置的fieldtype

<field name="game_name" type="text" indexed="true" stored="true" required="true" />

然后找到这一句：<defaultSearchField>text</defaultSearchField>把它改成<defaultSearchField>game_name</defaultSearchField>

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp，就可以进行分词处理了。

IKAnalyzer添加自定义分词词典：词典文件格式为无BOM的UTF-8编码的文本文件,文件扩展名不限，一次可以添加多个词库，每个词库以";"分开。把IKAnalyzer目录下的IKAnalyzer.cfg.xml和stopword.dic拷贝到$TOMCAT_HOME/webapps/solr/WEB_INF/classes目录下，可以自己新建一个mydic.dic文件，然后在IKAnalyzer.cfg.xml里进行配置。

（2）安装mmseg4j

下载地址：http://code.google.com/p/mmseg4j/downloads/list

在当前目录下新建mmseg4j目录，解压到该目录下：unzip mmseg4j-1.8.5.zip -d ./mmseg4j

把mmseg4j目录下的mmseg4j-all-1.8.5.jar文件拷贝到 $TOMCAT_HOME/webapps/solr/WEB-INF/lib/下

配置schema.xml，编辑$TOMCAT_HOME/solr/conf/schema.xml，在文件中添加下面这个fieldtype

<fieldtype name="textComplex" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="/home/zhoujh/java/apache-tomcat7/solr/dict">
</tokenizer>
</analyzer>
</fieldtype>
<fieldtype name="textMaxWord" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="/home/zhoujh/java/apache-tomcat7/solr/dict">
</tokenizer>
</analyzer>
</fieldtype>
<fieldtype name="textSimple" class="solr.TextField" positionIncrementGap="100">
<analyzer>
<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="/home/zhoujh/java/apache-tomcat7/solr/dict">
</tokenizer>
</analyzer>
</fieldtype>

注意：dicPath的值改成你自己机器上相应的目录。

然后修改之前添加的filed，让其使用mmseg4j分词器

<field name="game_name" type="textComplex" indexed="true" stored="true" required="true" />

配置mmseg4j分词词典：MMSEG4J的词库是可以动态加载的，词库的编码必须是UTF-8，mmseg4j 默认从当前目录下的 data 目录读取上面的文件，当然也可以指定别的目录，比如我就放在自定义的dict目录下。自定义词库文件名必需是 "words" 为前缀和 ".dic" 为后缀。如：/data/words-my.dic。

这里直接把mmseg4j/data目录下的所有.dic文件拷贝到$TOMCAT_HOME/solr/dict目录下。共有：4个dic文件，chars.dic、units.dic、 words.dic、 words-my.dic。下面简单解释一下这几个文件的作用。

1、chars.dic，是单个字，和对应的频率，一行一对，字在全面，频率在后面，中间用空格分开。这个文件的信息是 complex 模式要用到的。在最后一条过虑规则中使用了频率信息。

2、units.dic，是单位的字，如：分、秒、年。

3、words.dic，是核心的词库文件，一行一条，不需要其它任何数据（如词长）。

4、words-my.dic，是自定义词库文件

在浏览器打开http://localhost:8080/solr/admin/analysis.jsp，就可以看到分词效果了。

现在，这两种分词方法都已配置好了，想用哪种就把查询的filed的type设置成哪种。

四. 导入文档数据

现在添加文本搜索的功能，首先导入数据源。

切换到/home/zhoujh/java/solr/apache-solr/example/exampledocs目录下，该目录下有很多xml文件，随便copy一个，改名位game_data.xml。如：cp hd.xml game_data.xml，修改内容如下：

<add>
<doc>
<field name="id">1</field>
<field name="game_name">魔兽世界</field>
</doc>
<doc>
<field name="id">2</field>
<field name="game_name">仙剑</field>
</doc>
<doc>
<field name="id">3</field>
<field name="game_name">传奇</field>
</doc>
<doc>
<field name="id">4</field>
<field name="game_name">极品飞车</field>
</doc>
<doc>
<field name="id">5</field>
<field name="game_name">轩辕剑</field>
</doc>
</add>

注意：该xml文件必须是UTF-8格式的。

然后提交到solr，在 /home/zhoujh/java/solr/apache-solr/example/exampledocs目录下执行命令：

[zhoujh@alexzhou exampledocs]$ java -Durl=http://localhost:8080/solr/update -Dcommit=yes -jar post.jar game_data.xml

如果输出下面的信息，则导入成功。注：xml文件中要有game_name这个field。如果出错，到$TOMCAT_HOME/logs/下看catalinaxxx.log日志信息

SimplePostTool: version 1.4

SimplePostTool: POSTing files to http://localhost:8080/solr/update..

SimplePostTool: POSTing file game_data.xml

SimplePostTool: COMMITting Solr index changes..

检测是否有数据：http://localhost:8080/solr/select/?q=*:*，如果输出信息如下，就成功了。

<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
<lst name="params">
<str name="indent">on</str>
<str name="start">0</str>
<str name="q">*:*</str>
<str name="rows">10</str>
<str name="version">2.2</str>
</lst>
</lst>
<result name="response" numFound="5" start="0">
<doc>
<str name="game_name">魔兽世界</str>
<str name="id">1</str>
</doc>
<doc>
<str name="game_name">仙剑</str>
<str name="id">2</str>
</doc>
<doc>
<str name="game_name">传奇</str>
<str name="id">3</str>
</doc>
<doc>
<str name="game_name">极品飞车</str>
<str name="id">4</str>
</doc>
<doc>
<str name="game_name">轩辕剑</str>
<str name="id">5</str>
</doc>
</result>
</response>

不过在现实工作中，一般利用数据库作为数据源，下面我们来配置solr连接数据库源。

五. solr从数据库导入数据

（1）安装mysql，

安装完后执行以下命令：启动mysql服务，进入mysql，创建数据库kw_game，创建表game，导入数据

sudo /etc/init.d/mysqld start
mysql -u root -p
create database kw_game;
use kw_game;
create table game(id int primary key auto_increment,game_name varchar(100),add_time datetime);
insert into game(game_name,add_time) values("魔兽世界",now());
insert into game(game_name,add_time) values("魔兽争霸",now());
insert into game(game_name,add_time) values("传奇世界",now());

（2）下载 mysql-connector-java-xx-bin.jar（驱动程序）

把 mysql-connector-java-5.1.20-bin.jar复制到~/java/apache-tomcat7/webapps/solr/WEB-INF/lib/目录下

cp mysql-connector-java-5.1.20-bin.jar ~/java/apache-tomcat7/webapps/solr/WEB-INF/lib/

（2）配置solrconfig.xml，添加一个requestHandler

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">game-data-config.xml</str>
</lst>
</requestHandler>

(3)新建一个数据源配置文件game-data-config.xml，内容如下

<?xml version="1.0" encoding="UTF-8"?>
<dataConfig>
<dataSource type="JdbcDataSource"
driver="com.mysql.jdbc.Driver"
url="jdbc:mysql://localhost:3306/game_db"
user="root"
password="123456"/>
<document name="doc">
<entity name="game" query="select * from game"
deltaImportQuery="select * from game where id='${dataimporter.delta.id}'"
deltaQuery="select id from game where add_time > '${dataimporter.last_index_time}'">
<field column="id" name="id" />
<field column="game_name" name="game_name" /><field column="add_time" name="add_time" />
</entity>
</document>
</dataConfig>

注： deltaImportQuery、deltaQuery:增量更新时用到，因为在schema.xml中已经有game_name和id字段了，只需在schmema.xml添加add_time字段，格式为date或者string。

在浏览器输入下面两个地址，导入数据创建索引。

更新全部： http://localhost:8080/solr/dataimport?command=full-import

增量更新： http://localhost:8080/solr/dataimport?command=delta-import

然后检测是否有数据：http://localhost:8080/solr/select/?q=*:*，现在页面上出现的就是你数据库里的数据了。

注：如果出现了下面异常：

Error loading class 'org.apache.solr.handler.dataimport.DataImportHandler

是solrconfig.xml文件中<lib dir="xx/dist/ regex="" /> dir的路径错了，改成你电脑上正确的位置就ok了~~

六. 配置多个实例

最后简单介绍一下如何配置多个实例，编辑$TOMCAT_HOME/solr/solr.xml

<cores adminPath="/admin/cores">

<core name="game" instanceDir="game" /> <core name="game2" instanceDir="game2" />

</cores>

此时访问的时候必须得在solr后加上各实例的名称

http://localhost:8080/solr/game/admin

http://localhost:8080/solr/game2/admin

Apache Solr采用Java开发、基于Lucene的全文搜索服务器的更多相关文章

如何搭建Eclipse +Apache Tomcat配置Java开发环境
Linux平台下如何搭建Eclipse +Apache Tomcat配置的Java开发环境本文出自 "李晨光原创技术博客" 博客,请务必保留此出处http://chenguang ...
一种安全云存储方案设计（下）——基于Lucene的云端搜索与密文基础上的模糊查询
一种安全的云存储方案设计(未完整理中) 一篇老文了,现在看看错漏颇多,提到的一些技术已经跟不上了.仅对部分内容重新做了一些修正,增加了一些机器学习的内容,然并卵. 这几年来,云产品层出不穷,但其安全性 ...
基于 Lucene 的桌面文件搜索
开源2010年,自己在学习 Lucene 时开发的一款桌面文件搜索工具,这么多年过去了,代码一直静静存放在自己的硬盘上,与其让其沉睡,不如分享出来. 这款工具带有明显的模仿 Everything 的痕 ...
[Intel Edison开发板] 04、Edison开发基于nodejs和redis的服务器搭建
一.前言 intel-iot-examples-datastore 是Intel提供用于所有Edison开发板联网存储DEMO所需要的服务器工程.该工程是基于nodejs和redis写成的一个简单的工 ...
Apache solr(一)
概念:Apache Solr 是一个开源的搜索服务器.Solr 使用 Java 语言开发,主要基于 HTTP 和 Apache Lucene 实现.Apache Solr 中存储的资源是以 Docum ...
8 个基于 Lucene 的开源搜索引擎推荐
Lucene是一种功能强大且被广泛使用的搜索引擎,以下列出了8种基于Lucene的搜索引擎,你可以想象它们有多么强大. 1. Apache Solr Solr 是一个高性能,采用Java5开发,基于L ...
Apache Solr应用服务器存在远程代码执行漏洞👻
Apache Solr应用服务器存在远程代码执行漏洞 1.描述 Apache Solr是一个开源的搜索服务,使用Java语言开发,主要基于HTTP和Apache Lucene实现的. Solr是一个高 ...
全文搜索技术—Solr
1. 学习计划 1. Solr的安装及配置 a) Solr整合tomcat b) Solr后台管理功能介绍 c) 配置中文分析器 2. 使用Solr的后台管理索引库 a) ...
Solr实现全文搜索
1.1 Solr是什么? Solr 是Apache下的一个顶级开源项目,采用Java开发,它是基于Lucene的全文搜索服务器.Solr提供了比Lucene更为丰富的查询语言,同时实现了可配置.可扩展 ...

随机推荐

[Everyday Mathematics]20150128
求极限 $$\bex \lim_{x\to 0}\sex{\frac{e^x+e^{2x}+\cdots+e^{nx}}{n}}^\frac{1}{x}. \eex$$
UVA 11600-Masud Rana（状压，概率dp）
题意: 有n个节点的图,开始有一些边存在,现在每天任意选择两点连一条边(可能已经连过),求使整个图联通的期望天数. 分析: 由于开始图可以看做几个连通分量,想到了以前做的一个题,一个点代表一个集合(这 ...
SQL Server缺省约束、列约束和表约束
SQL Server缺省约束是SQL Server数据库中的一种约束,下面就为您介绍SQL Server缺省约束.列约束和表约束的定义方法啊,供您参考. SQL Server缺省约束 SQL Serv ...
CodeForce---Educational Codeforces Round 3 D. Gadgets for dollars and pounds 正题
对于这题笔者无解,只有手抄一份正解过来了: 基本思想就是 : 二分答案,对于第x天,计算它最少的花费f(x),<=s就是可行的,这是一个单调的函数,所以可以二分. 对于f(x)的计算,我用了nl ...
BFC--绝对值得你思考
CSS BFC(Block Formatting Context) BFC是W3C CSS 2.1规范中的一个概念,他决定了元素如何对其内容进行定位,以及与其他元素的关系和相互作用. ...
AAC 格式分析
一直在做一个语音项目,到了测试阶段,近来不是很忙,想把之前做的内容整理一下. 关于AAC音频格式基本情况,可参考维基百科http://en.wikipedia.org/wiki/Advanced_Au ...
Install_ruby
Install rvm 1 2 3 $ curl -L get.rvm.io | bash -s stable $ source ~/.bashrc $ source ~/.bash_profile ...
[Hive - Tutorial] Data Units 数据存储单位
Data Units In the order of granularity - Hive data is organized into: 数据库.表.分区.桶 Databases: Namespac ...
转】机器学习开源框架Mahout配置与入门研究
原博文出自于:http://www.ha97.com/5803.html 感谢! PS:机器学习这两年特别火,ATB使劲开百万到几百万年薪招美国牛校的机器学习方向博士,作为一个技术控,也得折腾下 ...
Spark Streaming 架构
图 1 Spark Streaming 架构图组件介绍: Network Input Tracker : 通过接收器接收流数据, 并将流数据映射为输入DSt ...

Apache Solr采用Java开发、基于Lucene的全文搜索服务器

Apache Solr采用Java开发、基于Lucene的全文搜索服务器的更多相关文章

随机推荐

热门专题