什么是Solr搜索

我们经常会用到搜索功能，所以也比较熟悉，这里就简单的介绍一下搜索的原理。

当然只是介绍solr的原理，并不是搜索引擎的原理，那会更复杂。

流程图

这是一个非常简单的流程图：

User：即需要搜索的用户。

Raw Data：需要搜索的内容，当然是源数据，可能是文本文件，可能是数据库的数据，可能是XML等等。

Index：有格式的数据。

其实从图中可以看出来：

Solr搜索非常类似于读写数据库的过程。
Solr搜索最主要的两个问题（细节已经封装好）：
1. 怎样从元数据合理组织格式化成Index
2. 怎样根据关键字从Index中调取相关数据（排序、模糊查询等等）。

类比一下，Index就相当于数据表，里面有很多记录，我们需要做的就是设计数据表的格式，有哪些列。并且根据关键字搜索。

Solr综述

Solr其实是一个WebApp，在官网下载后将war包放在web'容器下便可以直接运行，你自己的web项目通过HTTP请求的方式和Solr交互。当然需要现在Solr中生成索引库（类似不同的数据表）。HTTP请求中带有相关参数（关键字、需要搜索的索引库、排序规则….）。那么想爱先简单介绍下一些相关的概念：

索引Index，文档Docements，域Fields

Solr中数据最小单元为Field，比如Name、Age。Documents是一个具体的对象，如人。举例说明：Edwin是一个人，那么可以将Edwin抽象为一个Document，这个Document包含很多Fields，Name、Age、Sex….。一个索引库Index由许多Documents组成。

Index（Student） ß Docements(Edwin、AngelaBaby…) ß Fields(Name、Age…)

是不是很像数据库的模型？其实完全可以把这个理解为数据库… 并且Index还真的有主键的概念，叫做Unique Field。

查询Query

上面解决了数据格式化成Index的问题，那么还剩下怎样根据关键字查询搜索结果的问题，先举个例子：

http://localhost:8983/solr/Artist/select?q=Artist_Name:周杰伦 &wt=json&indent=true

这就是web项目和Solr交互的一个Url

Localhost:8983/solr 这个事Solr项目

Artist是索引库Index

q=Artist_Name:周杰伦

q代表Query 意思是查询Artist_Name为周杰伦的数据

wt=json 指结果按照Json形式返回

indent=true 返回的数据格式化（也就是好看一点~）

通过这一个简单的请求，即可以明白Solr请求的一个基本过程了，有什么需求加什么参数，之后Solr解析请求，根据自己的匹配规则，一个很复杂的公式，计算所有Documents的得分，得分高的优先返回。最后Web项目获得得到搜索结果，格式化输出。

两个重要的文件

Schema.xml

这个文件其实就是对Index的配置，包括Field的类型，Unique Field，分词等等。

先看看整体结构：

<schema name="Artist" version="1.1">
<fieldtype name="string" class="solr.StrField" sortMissingLast="true" omitNorms="true"/>
<fieldType name="long" class="solr.TrieLongField" precisionStep="0" positionIncrementGap="0"/>
<fieldType name="int" class="solr.TrieIntField" precisionStep="0" positionIncrementGap="0"/>
<field name="ID" type="int" indexed="true" stored="true" multiValued="false" required="true"/>
<field name="Name" type="text_ik" indexed="true" stored="true"/>
<field name="Name_Exact" type="string" indexed="true" stored="true" />
<field name="SpaceID" type="long" indexed="true" stored="true"/>
<field name="PinYin" type="text_general" indexed="true" stored="true"/>
<field name="SongNum" type="int" indexed="true" stored="true"/>
<copyField source="Artist_Name" dest="Artist_Name_Exact" />
<uniqueKey>ID</uniqueKey>
<defaultSearchField>ID</defaultSearchField>
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index" isMaxWordLength="false" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
<analyzer type="query" isMaxWordLength="true" class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
<solrQueryParser defaultOperator="OR"/>
</schema>

FieldType代表Field的类型，可以自定义也可以使用Solr提供的Type，具体支持的Type可以参考Solr文档，其中需要稍微解释一下的是string，实现的class是solr.StrField，string的意思是将Field当成字符串，那么如果在搜索时，不会进行分词。只能整体匹配，例如将Name设置为string，那么当搜索周杰伦的时候，只有Name完全和周杰伦相同才会被匹配，周杰，周杰伦你好…这些都不会匹配，这个在精确查找时很有用。

Unique Field ：其实是主键的意思，就是说在所有的Documents中被设置成Unique的Field只能有唯一值。当然在Index生成的时候，不用去重，Solr并不会报错，比如向Solr输入

ID:1 Name:张三

ID:1 Name：李四

如果ID为Unique Field，那么Solr可能会根据先后顺序，只会存储一个ID为1的Document，剩余重复ID的Document会被忽略。

Field中还有很多属性：

Name和Type就不说了

Indexed：表示此Field是否索引，意思就是能否被搜索到，如果Name设置为false，那么搜索Name=周杰伦是没有结果的。

Stored：表示此Field是否被存储。

multiValued：表示此Field能否有多值，即Category可以有多个值：如原创歌手、华语男歌手等等。默认false，Unique Field必须显式设置为false。

Required：表示此Field是否能为空，默认false，Unique Field必须设置为true。

<copyField source="Name" dest="Name_Exact" />

这是一个很有用的东西，从名字就能看出来是赋值Field，最大的作用便是可以让一个Field有多个不同的Type。

比如Name一个可以设置为text_ik（分词器，可以看我的博客：三、Solr多核心及分词器（IK）配置）

一个设置为string

那么模糊搜索时，可以使用Name，精确搜索时使用Name_Exact。

Solrconfig.xml

Scheme.xml是对索引库中Documents的配置，那么solrconfig就是对索引库的整体配置。配置requestHandler，有点类似于filter，就是在请求前后对请求进行预处理。这个之后碰到具体情况再具体分析，因为一般情况下设置好了之后，极少需要改动此文件。

总结

其实我个人使用Solr后觉得，如上面画的简单的流程图，最重要的两个问题：

查询条件

查询哪些Field，用什么方式查询，什么排序，比如按照更新时间排序，还是在搜索歌曲时HQ、SQ优先等等，主要用到了Url参数、solrconfig中的requestHandler。
Index的设计

这是重中之重，我觉得大部分情况下应该都是使用solr从数据库中读取数据生成索引，这就要求原来的数据库设计就要比较合理，如果原来的数据库比较乱，那么就需要大量的SQL将表联结等等操作，并且出错的概率也高。

一、Solr综述的更多相关文章

三、Solr多核心及分词器（IK）配置
多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索,不使用多核也没问题,这样带来的问题是 ...
Solr多核心及分词器（IK）配置
Solr多核心及分词器(IK)配置多核心的概念多核心说白了就是多索引库.也可以理解为多个"数据库表" 说一下使用multicore的真实场景,比若说,产品搜索和会员信息搜索 ...
什么是Solr搜索
什么是Solr搜索一.Solr综述什么是Solr搜索我们经常会用到搜索功能,所以也比较熟悉,这里就简单的介绍一下搜索的原理. 当然只是介绍solr的原理,并不是搜索引擎的原理,那会更复杂. ...
solr中Cache综述
一.概述 Solr查询的核心类就是SolrIndexSearcher,每个core通常在同一时刻只由当前的SolrIndexSearcher供上层的handler使用(当切换SolrIndexSear ...
创建solr集群简述
综述: 用两台服务器,每台服务器上启动两个solr实例(端口分别为8983.7574),即一共有2x2=4个节点.4个节点分散在两个分片上,每台机器上存放两个分片的各一个replica,这样等于每台机 ...
solr服务中集成IKAnalyzer中文分词器、集成dataimportHandler插件
昨天已经在Tomcat容器中成功的部署了solr全文检索引擎系统的服务:今天来分享一下solr服务在海量数据的网站中是如何实现数据的检索. 在solr服务中集成IKAnalyzer中文分词器的步骤: ...
Solr 排除查询
前言 solr排除查询也就是我们在数据库和程序中经常处理的不等于,solr的语法是在定语前加[-].. StringBuilder sbHtml=new StringBuilder(); shBhtm ...
Solr高级查询Facet
一.什么是facet solr种以导航为目的的查询结果成为facet,在用户查询的结果上根据分类增加了count信息,然后用户根据count信息做进一步搜索. facet主要用于导航实现渐进式精确搜索 ...
[Solr] (源) Solr与MongoDB集成，实时增量索引
一. 概述大量的数据存储在MongoDB上,需要快速搜索出目标内容,于是搭建Solr服务. 另外一点,用Solr索引数据后,可以把数据用在不同的项目当中,直接向Solr服务发送请求,返回xml.js ...

随机推荐

xampp进程和非进程执行
xampp以服务和非服务运行apache有哪些区别?为什么去掉勾是以进程的形式执行?
注意mysql中的编码格式和php中的编码格式一致
今天发现用php代码插入英文可以,但是中文插入不进去,注意编码要一致,@mysql_connect("localhost","root","12345 ...
Objective－C 笔记字符串操作
这次总结下OC里一些对字符串的一些操作. 创建字符串对象时,会创建一个内容不可更改的对象,称为不可变对象.可以使用NSString类处理不可变字符串.你经常需要处理字符串并更改字符串中的字符.例如,可 ...
关于C++中的虚拟继承的一些总结
1.为什么要引入虚拟继承虚拟继承是多重继承中特有的概念.虚拟基类是为解决多重继承而出现的.如:类D继承自类B1.B2,而类B1.B2都继承自类A,因此在类D中两次出现类A中的变量和函数.为了节省内存 ...
$(this).val()与this.value的区别?text()与html()的区别？
$(this).val()与this.value 作用:都是获得当前Dom对象的value值(一般是表单元素) text radio checkbox select 基本没有什么区别,只是: this ...
PHP面向对象多态性的应用
多态是面向对象的三大特性中除封装和继承之外的另一重要特性.它展现了动态绑定的功能,也称为“同名异式”.多态的功能可让软件在开发和维护时,达到充分的延伸性.事实上,多态最直接的定义是让具有继承关系的不同 ...
dede仿站笔记
仿站步骤查看是否为dedecms的方法,看引用路径src="/templets/default2012/images/toutiao.png" 0查看仿站编码,选择utf8或gbk ...
Day02
1.os.system()和os.popen() os.popen() 功能强于os.system() , os.popen() 可以返回回显的内容,以文件描述符返回 eg: import os re ...
【问题】pod setup 问题
安装pod setup 的时候,可能会安装失败,可以多试几次,但是如果一直失败,那就是由问题了. 解决办法: 1. 分别执行下面命令卸载cocoapods和xcodeproj,如果你的机器上面有多个版 ...
汇编下的i++与++i
故事背景,一个正在c语言的家伙,问我++i 和 i++的问题,我当时因为要去上课没给他说,正好今晚有空就测试了一下如下代码: 编译环境:VS2010 语言:C++ #include <iost ...

一、Solr综述

什么是Solr搜索

Solr综述

两个重要的文件

总结

一、Solr综述的更多相关文章

随机推荐

热门专题