作者：京东物流李洪吉

提到ES，大多数爱好者想到的都是搜索引擎，但是明确一点，ES不等同于搜索引擎。不管是谷歌、百度、必应、搜狗为代表的自然语言处理(NLP)、爬虫、网页处理、大数据处理的全文搜索引擎，还是有明确搜索目的的搜索行为，如各大电商网站、OA、站内搜索、视频网站的垂直搜索引擎，他们或多或少都使用到了ES。

作为搜索引擎的一部分，ES自然具有速度快、结果准确、结果丰富等特点，那么ES是如何达到“搜索引擎”级别的查询效率呢？首先是索引，其次是压缩算法，接下来我们就一起了解下ES的索引结构和压缩算法

1 结构

1.1 Mysql

Mysql下的data目录存放的文件就是mysql相关数据，mysql文件夹对应的就是数据库mysql。

其中表columns_priv对应了3个文件：columns_priv.frm、columns_priv.MYD、columns_priv.MYI。

.frm：表结构；.MYD：myisam存储引擎原数据；.MYI：myisam存储引擎索引；.ibd：innodb存储引擎数据

1.2 Elasticsearch

cfe为索引文，cfs 为数据文件，cfe文件保存Lucene各文件在.cfs文件的位置信息

cfs、cfe 在segment还很小的时候，将segment的所有文件都存在在cfs中，在cfs逐渐变大时，大小超过shard的10%，则会拆分为其他文件，如tim、dvd、fdt等文件

1.3 存储结构

倒排索引结构分为倒排表、词项字典、词项索引

倒排表包含某个词项的所有id的数据存储了在.doc文件中

词项字典包含了index field的所有经过处理之后的词项数据，最终存储在.tim文件中

1.4 结构对比

我们以某商城的手机为例，左侧为es倒排索引结构，右侧为原始数据。左侧图示只是为了展示倒排索引结构，并不是说es中倒排表就是简单的数组

以上面结构对比示例图为例，假如共有10亿条数据需要存储在ES中(上图右)，分词后存储的倒排表(上图左)大概包含分词term以及对应的id数组等，在10亿条数据中，分词“小米”相关的数据有100万条，也就是说分词“小米”对应的数组Posting List长度是100万

id是int类型的有序主键，分词“小米”在数组Posting List中100万int类型数字总长度=100万每个int占4字节=400万Byte≈4MB。1个分词占4MB空间,假如10亿条数据有500万个分词，总空间=4MB500万=2千万MB，磁盘空间直接爆炸

2 算法

分词对应的数组Posting List实际就是一个个有序数组，而有序数值数组是比较容易进行压缩处理的，而且一般来说压缩效益也不错，如果能对其进行压缩是能够大大节约空间资源的

ES中倒排索引的压缩算法主要有FOR算法(Frame Of Reference)和RBM算法(RoaringBitMap)

2.1 FOR

FOR算法的核心思想是用减法来削减数值大小，从而达到降低空间存储。假设V(n)表示数组中第n个字段的值，那么经过FOR算法压缩的数值V(n)=V(n)-V(n-1)。也就是说存储的是后一位减去前一位的差值。存储是也不再按照int来计算了，而是看这个数组的最大值需要占用多少bit来计算

我们按照差值计算的方式来保存数据，初始值为1，2与1的差值为1，3与2的差值为1……最终我们就将原始Posting List数据转化为100万个1，每个1我们可以用1bit来记录，总空间=1bit100万=100万bit，相比原有400万Byte=3200bit，空间压缩了32倍

在实际生产中，不可能出现一个term的Posting List是这种差值均为1的情况，所以我们以通用示例举例。假如原数据为[73，300，302，332，343，372],数组中6个数字占据总空间为24字节。按照差值方式记录，数组转化为[73,227,2,30,11,29],最大数字为227，大于2的7次方128，小于2的8次方256，所以每个数字可以使用8bit即1Byte来保存，占据总空间为1Byte*6 + 1Byte=7Byte

在此基础上，我们将差值数组按照密集度划分为[73,227]和[2,30,11,29]，其中[73,227]中最大值227介于2的7次方和2的8次方之间，所以用8bit=1Byte作为切割分段，[2,30,11,29]中最大数30介于2的4次方和2的5次方之间，所以用5bit作为切割分段。

数组[73,227]占据总空间为8bit2个=16bit=2Byte

数组[2,30,11,29]占据总空间为5bit4个=20bit=3Byte

为什么20bit=3Byte呢？因为8bit=1Byte，小于8bit也会占据1个字节空间，所以17bit到24bit均为3Byte

所以，最终占据总空间=1+2+1+3=7Byte

疑问一：既然原数组[73，300，302，332，343，372]要按照密集度拆分为[73,227]和[2,30,11,29]两个数组，那为什么不继续往下拆分，直接拆分到每个数字是一个数组，这样使用bit记录时占据总空间会更少？

答：如果继续拆分数组，空间确实会使用更少，但是，之前我们提到搜索引擎速度快的方式有两种：高效的压缩算法和快速的编码解码速度，单个数字存储确实压缩了空间，但是我们无法再通过解码的方式将源数据还原

疑问二：为什么源数据使用差值记录占据6Byte，拆分数组后占据7Byte，拆分后占据空间不变，有时候甚至会变大，为什么？

答：数据量小的情况下确实会出现该情况，因为我们需要拆分数组并记录拆分数组的长度（如上面示例中的8bit和5bit），在原数据存储空间基础上还要存储拆分长度，所以数据量小的情况下会出现比直接存储占据空间大的情况。但是不管是搜索引擎还是Elasticsearch更多处理的是海量数据，数据量越多，差值数组拆分的方式节省空间越明显

2.2 RBM

我们已经了解了FOR压缩算法，算法核心是将PostingList按照差值密集度转化成两个差值数组。在这里我们要考虑一种情况就是：在大数据中，10亿条数据分词500万个，如果分词“小米”所在PostList比较分散且差值很大，此时使用FOR算法效果就会大打折扣。所以稀疏的数组，不适合使用FOR算法

在这里我们以[1000，62101，131385，132052，191173，196658]为例，如果按照FOR算法，转化成的差值数组为[1000，61101，69284，667，59121，5485]密集度很低。我们采用RBM算法

源数据PostingList是由int类型组成的数组，int类型=4Byte=32bit，最大值=2的32次方-1=4294967295≈43亿。当数据较大且稀疏时，我们将32bit拆分为16bit和16bit，16bit最大值=65535，前16bit存放商，后16bit存放余数，所以商和余数都不会超过65535.我们将源数组的值除以65536，得到的商和余数分别存放在前16bit和后16bit。

以数字196658为例，转化为2进制，前16位=3，后16位=50

得到的结果以K-V存放。Key最大值为16bit，所以以short[]数组存放，Value以Container存放。

由于源数组为有序数组，所以按照高低16位转化后，商和余数都是从小到大排列

通过看Container源码，我们可以看到Container有3种：ArrayContainer、BitmapContainer、RunContainer。

ArrayContainer本质为集合，所以随着数组中数量越多，占用空间越多，呈正向增长。

当数组种数量为4096时，占据总空间=4096个16bit(即2Byte)1024=8KB

当数组种数量为65536时，占据总空间=65536个16bit(即2Byte)1024=128KB

BitmapContainer位图，核心就是将原有存储数值转化成该数值在哪个位置上存在

由于余数最大值为65535，所以我们需要65536位位图，数值是多少，在位图上对应的位置就是多少。数值等于4096，则位图上4096位值为1；数值等于65535，则位图上65535位值为1。每个位置上的数都占用8KB空间（8KB=65536bit）

RunContainer用法相对狭隘，这种类型是Lucene 5之后新增的类型，主要应用在连续数字的存储商，比如倒排表中存储的数组为 [1,2,3…100W] 这样的连续数组，如果使用RunContainer，只需存储开头和结尾两个数字：1和100W，即占用8个字节。这种存储方式的优缺点都很明显，它严重收到数字连续性的影响，连续的数字越多，它存储的效率就越高
如果数组是如下形式 [1,2,3,4,5,100,101,102,999,1000,1001] 就会被拆分为三段：[1,5],[100,102],[999,1001]

至于每次存储采用什么容器，需要进行一下判定，比如ArrayContainer，当存储的元素少于4096个时，他会比BitmapContainer占用更少空间，而当大于4096个元素时，采用ArrayContainer所需要的空间就会大于8kb，那么采用BitmapContainer就会占用更少空间

3 总结

ES在处理海量数据时通过其独到的结构和压缩算法，将索引效率尽可能的提升。虽然在实际业务处理中我们极少遇到海量数据处理的情况，但是通过了解ES的原理，能够帮我们开阔下视野，了解数字之美，算法之美。

ES的索引结构与算法解析的更多相关文章

MYSQL索引结构原理、性能分析与优化
[转]MYSQL索引结构原理.性能分析与优化第一部分:基础知识索引官方介绍索引是帮助MySQL高效获取数据的数据结构.笔者理解索引相当于一本书的目录,通过目录就知道要的资料在哪里, 不用一页一页 ...
由浅入深探究mysql索引结构原理、性能分析与优化转
第一部分:基础知识第二部分:MYISAM和INNODB索引结构 1. 简单介绍B-tree B+ tree树 2. MyisAM索引结构 3. Annode索引结构 4. MyisAM索引与Inno ...
由浅入深探究mysql索引结构原理、性能分析与优化
摘要: 第一部分:基础知识第二部分:MYISAM和INNODB索引结构 1.简单介绍B-tree B+ tree树 2.MyisAM索引结构 3.Annode索引结构 4.MyisAM索引与Inno ...
python常见排序算法解析
python——常见排序算法解析算法是程序员的灵魂. 下面的博文是我整理的感觉还不错的算法实现原理的理解是最重要的,我会常回来看看,并坚持每天刷leetcode 本篇主要实现九(八)大排序算法 ...
DeepFM算法解析及Python实现
1. DeepFM算法的提出由于DeepFM算法有效的结合了因子分解机与神经网络在特征学习中的优点:同时提取到低阶组合特征与高阶组合特征,所以越来越被广泛使用. 在DeepFM中,FM算法负责对一阶 ...
GBDT+LR算法解析及Python实现
1. GBDT + LR 是什么本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题.这个方法出自于Facebook 2014年的论文 Practical L ...
【转】由浅入深探究mysql索引结构原理、性能分析与优化
摘要: 第一部分:基础知识第二部分:MYISAM和INNODB索引结构 1.简单介绍B-tree B+ tree树 2.MyisAM索引结构 3.Annode索引结构 4.MyisAM索引与Inno ...
区块链~Merkle Tree（默克尔树）算法解析~转载
转载~Merkle Tree(默克尔树)算法解析 /*最近在看Ethereum,其中一个重要的概念是Merkle Tree,以前从来没有听说过,所以查了些资料,学习了Merkle Tree的知识,因为 ...
MySQL索引----数据结构及算法原理
摘要本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题.特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如BT ...
ES读写索引内幕分析
一.简介 ES中的索引都进行分片,每个分片都会保存多个副本.这些副本称为复制组,在添加或删除索引时必须同步副本.如果不这样,从不同的副本中读取的索引可能截然不同.保持分片副本同步并从中提供读取的过程被 ...

随机推荐

运行python脚本报错SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape
运行python脚本报错 SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: ...
beamforming源码标记
p:各阵元的声压信号矩阵 R:接收数据的自协方差矩阵 Pcbf:交叉谱矩阵
vue打包记录
这里的确是css以及js文件的路径问题,但解决时并不需要手动改路径或者加一段判断去修改,最方便的办法时在项目打包前的vue.config.js里面将publicPath属性添加或者修改为 public ...
ARFoundation在2019.2之后无法打包的问题
打包提示错误gradle无法完成打包.解决方案转到首选项>外部工具> Android> Gradle ,然后将自定义Gradle设置为Gradle 5.6.4或更高版本.请参阅Gr ...
String当中的intern()
public class String001 { public static void main(String[] args) { String s1 = "hello"; Str ...
Repeater 绑定数据如何根据数据列的内容排序
可指定Repeater的数据源从数据库查询时直接排序,而后绑定数据这样
Linux开发——spi总线学习
1 spi总线协议简介 1.1 基本概念 SPI(Serial pe)
Python学习笔记--SQL数据
SQL 本人受到Java的影响,数据库的话,就不按照教程走了,我就直接使用的是Navicat软件的数据库啦! SQL支持注释: 两种单行注释(-- 和# ),和一种多行注释(/* */) 基础的使用语 ...
Dash 2.9.0版本重磅新功能一览
本文示例代码已上传至我的Github仓库https://github.com/CNFeffery/dash-master 大家好我是费老师,就在昨晚,Dash框架发布了其2.9.0版本更新,在一众更新 ...
Rainbond PipeLine插件部署与springboot应用部署实践
前言:上一篇介绍额rainbond单机部署+单个节点的k8s环境搭建,本篇介绍rainbond5.12新增的pipeline插件的使用 1.Pipeline插件的安装安装gitlab与gitlab- ...

ES的索引结构与算法解析