6.ElasticSearch系列之倒排索引】的更多相关文章

1. 倒排索引简介 对于书通过目录查找对应章节内容的方式属于正排索引,而对于想查询文本,如我爱中国在书籍中出现的次数与具体位置,则是倒排索引的范畴. 2. 倒排索引核心组成 单词词典(Term Dictionary) 记录所有文档的单词,记录单词到倒排列表的关联关系.单词词典一般比较大,可以通过B+树或哈希拉链法实现,以满足高性能的插入和查询 倒排列表(Posting List) 记录了单词对应的文档集合,由倒排索引项组成: 文档ID 词频TF - 该单词在文档中出现的次数,用于相关性评分 位置…
Elasticsearch是什么? Elasticsearch简称ES,是一个基于Lucene构建的开源.分布式.Restful接口的全文搜索引擎,还是一个分布式文档数据库.天生就是分布式.高可用.可扩展的,可以在很短的时间内存储.搜索和分析大量的数据. 什么是全文搜索? 全文搜索也叫全文检索,是指扫描文章中的每一个词,对每一个词进建立一个索引,指明该词在文章中出现的次数和位置,当前端用户输入的关键词发起查询请求后,搜索引擎就会根据事先建立的索引进行查找,并将查询的结果响应给用户. 这里有两个关…
概要 本篇主要讲解倒排索引的基本原理以及ES常用的几种分词器介绍. 倒排索引的建立过程 倒排索引是搜索引擎中常见的索引方法,用来存储在全文搜索下某个单词在一个文档中存储位置的映射.通过倒排索引,我们输入一个关键词,可以非常快地获取包含这个关键词的文档列表. 我们先看英文的,假设我们有两个文档: I have a friend who loves smile love me, I love you 为了建立倒排索引,我们先按最简单的用空格把每个单词分开,可以得到如下结果: *表示该列文档中有这个词…
一.概念 集群:一个或者多个节点组织在一起 节点:一个节点是集群中的一个服务器,由一个名字来标识,默认是一个随机的漫威角色名字. 分片:将索引划分为多份的能力,允许水平分割和扩展容量,多个分片相应请求,提高性能和吞吐量. 副本:创建分片的一份或多份的能力,在一个节点失败,其余节点可以顶上. 二.elasticsearch也需要存取数据,与mysql对比 elasticsearch mysql index(索引) 数据库 type(类型) 表 documents(文档) 行 fields() 列…
系列文章列表 Query DSL Query DSL 概要,MatchAllQuery,全文查询简述 Match Query Match Phrase Query 和 Match Phrase Prefix Query Multi Match Query Java Rest Client API Elasticsearch Java Rest Client API 整理总结 (一)--Document API Elasticsearch Java Rest Client API 整理总结 (二)…
概要 本篇主要介绍常见的6种搜索方式.聚合分析语法,基本是上机实战,可以和关系型数据库作对比,如果之前了解关系型数据库,那本篇只需要了解搜索和聚合的语法规则就可以了. 搜索响应报文 以上篇建立的music索引为例,我们先看看搜索结果的属性都有哪些 { "took": 1, "timed_out": false, "_shards": { "total": 5, "successful": 5, "…
概要 本篇主要介绍一下Elasticsearch Document的数据格式,在Java应用程序.关系型数据库建模的对比,介绍在Kibana平台编写Restful API完成基本的集群状态查询,Document最基本CRUD操作示例以及bulk批处理示例. Document数据格式 Java应用系统的数据模型都是面向对象的,有些对象比较复杂,传统的业务系统,数据需要落地到关系型数据库,在数据库领域模型设计时,会把复杂的POJO对象设计成一对一或一对多的关系,进行扁平化处理,查询的时候,需要多表查…
概要 本篇主要介绍搜索的报文结构含义.搜索超时时间的处理过程,提及了一下多索引搜索和轻量搜索,最后将精确搜索与全文搜索做了简单的对比. 空搜索 搜索API最简单的形式是不指定索引和类型的空搜索,它将返回集群下所有索引的所有文档(默认显示10条): GET /_search 响应的结果示例(有筛选,只取了一条document作为示例): { "took": 2, "timed_out": false, "_shards": { "tota…
概要 结构化搜索针对日期.时间.数字等结构化数据的搜索,它们有自己的格式,我们可以对它们进行范围,比较大小等逻辑操作,这些逻辑操作得到的结果非黑即白,要么符合条件在结果集里,要么不符合条件在结果集之外,没有那种相似的概念. 前言 结构化搜索将会有大量的搜索实例,我们将"音乐APP"作为主要的案例背景,去开发一些跟音乐APP相关的搜索或数据分析,有助力于我们理解实战的目标,顺带巩固一下学习的知识. 我们将一首歌需要的字段暂定为: | name | code | type | remark…
概要 本篇我们来看看shard内部的一些操作原理,了解一下人家是怎么玩的. 倒排索引 倒排索引的结构,是非常适合用来做搜索的,Elasticsearch会为索引的每个index为analyzed的字段建立倒排索引. 基本结构 倒排索引包含以下几个部分: 某个关键词的doc list 某个关键词的所有doc的数量IDF(inverse document frequency) 某个关键词在每个doc中出现的次数:TF(term frequency) 某个关键词在这个doc中的次序 每个doc的长度:…