全文检索 -- Solr从概念到实战（一）

西北野狼 2024-09-20 11:02:38 原文

全文检索：

将整个文本进行“分词”处理，在索引库中为分词得到的每一个词都建立索引，和用户搜索的关键词进行匹配。实现快速查找效果。

传统sql语句实现的局限性：

select song_id,song_name,song_singer,song_album

from table_song

where song_name like “%神话%” or song_album like “%神话%” or song_lyric like “%神话%”

效率低，影响性能。

数据库使用索引有无的区别：

i. 不使用索引

从字典中查“王”：从正文的第一页开始，逐页检查，看当前页中是否有“猪”这个字。要是没有再翻下一页。

ii. 使用索引

从字典中查“王”：先根据这个字的拼音或偏旁部首在“检字表”中找到这个字所在的页码，例如是857页，然后直接翻到857页，找到这个字。

全文检索技术：

Lucene和solr

索引库的结构：

索引库中的内容并不是一张完整的数据库表，因为有些内容在查询结果列表中不显示，所以不需要放在索引库中。

字段域的创建：

常用类型：

IntField
StringField
TextField

分词的概念

把一句话/一篇文章拆分成一个一个单个的词，并在内部统计每个词出现的频率，以此为依据进行后续的查询搜索。

Good morning lily

[good]

[morning]

[lily]

我爱炒鸡蛋

[我] [我]

[爱] [爱]

[炒] [炒鸡蛋]

[鸡蛋]

不分词的例子：“地址”字段中的“深圳”数据就不需要分词。不分词的字符串类型就使用StringField，分词的字符串就使用TextField。

建立索引

在索引库内部，将一个具体的索引值和文档中分词的结果关联起来，在搜索时使用索引可以快速定位到对应的词，进而快速定位到词所在的文档。

只有需要和搜索关键词匹配的字段才需要建立索引。

需要建立索引的字段例子：根据“神话”这个关键词搜索“song_name”字段中“神话”这条记录。

不需要建立索引的字段的例子：图片的路径/aaa/bbb/ccc/pic10.png所在的picture_path字段不需要建立索引。

字段的相关属性

数据类型：int、double、字符串等等
是否分词
1. 要分词：包含很多词的一句话
2. 不分词：分词之后失去本来的含义
是否建立索引
1. 要建立索引：用户会根据关键词搜索这个字段
2. 不建立索引：用户不会根据关键词搜索这个字段
是否存储
1. 要存储：在查询结果列表中要显示，或会用到
2. 不存储：在查询结果列表中不显示也不会用到

全文检索 -- Solr从概念到实战（一）的更多相关文章

转：手把手教你如何玩转Solr（包含项目实战）
原文地址:手把手教你如何玩转Solr(包含项目实战) 参考原文
MongoDB入门必读(概念与实战并重)
MongoDB入门必读(概念与实战并重) 一.概述 MongoDB是一个基于分布式文件存储的数据库开源项目.由C++语言编写.旨在为WEB应用提供可护展的高性能数据存储解决方案. MongoDB是一个 ...
全文检索引擎Solr系列——Solr核心概念、配置文件
Document Document是Solr索引(动词,indexing)和搜索的最基本单元,它类似于关系数据库表中的一条记录,可以包含一个或多个字段(Field),每个字段包含一个name和文本值. ...
mongoDB入门必读（概念与实战并重）
一.概述 MongoDB是一个基于分布式文件存储的数据库开源项目.由C++语言编写.旨在为WEB应用提供可护展的高性能数据存储解决方案. MongoDB是一个介于关系数据库和非关系数据库之间的产品,是 ...
requireJS 从概念到实战
requireJS 可以很轻易的将一个项目中的JavaScript代码分割成若干个模块(module).并且requireJS推荐一个模块就是一个文件,所以,你将获得一些零碎的具有互相依赖关系的JS文 ...
全文检索(SOLR)前端应用浅析 (转)
最近在一个关于知识管理系统中检索的一个功能方案,找到了一个很好的参考应用方案嘎要的分析一下,希望有类似应用的可以交流交流. 提起全文检索,Lucene的大名估计地球人都知道,通过这么多年的发展,外围的 ...
全文检索~solr的使用
全文检索这个系列在几前年写过lucene的文章,而现在看来它确实已经老了,它的儿子孙子都出来了,已经成为现在检索行列的主流,像solr,elasticsearch等,今天我们主要来看一个solr在as ...
Hybrid App从概念到实战
最近一直在准备找工作,看了很多公司的招聘介绍,有相当一部分直接写:熟悉 Hybrid App 开发加分!正好,我司开发的就有这种 Hybrid App--使用WebViewJavascriptBrid ...
solr课程学习系列-solr的概念与结构（1）
Solr是基于Lucene的采用Java5开发的一个高性能全文搜索服务器.源于lucene,却更比Lucene更为丰富更为强大的查询语言.同时实现了可配置.可扩展并对查询性能进行了优化,并且提供了一个 ...

随机推荐

Bootstrap知识记录：排版样式
---恢复内容开始--- 一．页面排版Bootstrap 提供了一些常规设计好的页面排版的样式供开发者使用.1.页面主体Bootstrap 将全局font-size 设置为14px,line-heig ...
transform: translate(-50%, -50%) 实现块元素百分比下居中
<!doctype html> <html> <head> <meta charset="utf-8"> <title> ...
WPF中如何调整TabControl的大小,使其跟随Window的大小而改变?
多年不写技术博客,手生的很,也不知道大家都关注什么,最近在研究Wpf及3d模型的展示,碰到很多问题,这个是最后一个问题,写出来小结一下...... WPF中如何调整TabControl的大小,使其跟随 ...
js的常用文档对象，document
1.document的概念:window的子对象,由于DOM对象模型的默认对象就是window,因此Window对象中的方法和子对象不需要通过Window来引用. - 2.document的组成:属性 ...
Modbus CRC 16 (C#)
算法 1．预置一个值为 0xFFFF 的 16 位寄存器,此寄存器为 CRC 寄存器. 2．把第 1 个 8 位二进制数据(即通信消息帧的第 1 个字节)与 16 位的 CRC 寄存器相异或,异或的结 ...
洛谷 P2921 [USACO08DEC]在农场万圣节Trick or Treat on the Farm
题目描述每年,在威斯康星州,奶牛们都会穿上衣服,收集农夫约翰在N(1<=N<=100,000)个牛棚隔间中留下的糖果,以此来庆祝美国秋天的万圣节. 由于牛棚不太大,FJ通过指定奶牛必须遵 ...
CentOS 安装git
git安装 yum install git 初始化git “git init --bare 文件夹” 添加所有 “git add . ” 提交 “git commit -m "提交信息&qu ...
BZOJ3676[Apio2014]回文串——回文自动机
题目描述考虑一个只包含小写拉丁字母的字符串s.我们定义s的一个子串t的“出现值”为t在s中的出现次数乘以t的长度.请你求出s的所有回文子串中的最大出现值. 输入输入只有一行,为一个只包含小写字 ...
51Nod 1381 硬币游戏
参考自:https://www.cnblogs.com/ECJTUACM-873284962/p/6445369.html 1381 硬币游戏基准时间限制:1 秒空间限制:131072 KB 分值 ...
mysql查询同一个字段下,不同内容的语句
太久没有用SQL语句都有些忘记了,今天工作中遇到了那就尝试记录一下吧需求是这样的:想查询同一个字段下,两条指定了不同内容,的其他的值主要是要想到用where......in 语句如下:select ...