lucene segment的产生，flush， commit与es的refresh，flush

本文主要分析es lucene写入流程，lucene segment的产生，flush， commit与es的refresh，flush。

1 segment的产生

当索引一个文档时，如果存在空闲的segment（未被其他线程锁定），则取出空闲segment list中的最后一个segment（LIFO)，并锁定，将文档索引至该segment，

找达到flush条件的segment，然后解锁，归还至空闲segment list，如果有达到flush条件的segment，flush该segment（同步执行）。

如果不存在，则创建新的segment，重复上述步骤。

总结1：如果并行的执行向一个索引，索引文档，则需要不同的segment。

相关代码：

//索引一个文档。

IndexWriter.updateDocument

//索引一个文档。

DocumentsWriter.updateDocument

//一个线程索引时锁定一个ThreadState对象，索引后归还至free list。

ThreadState

//ThreadState的属性，一个DocumentsWriterPerThread对应一个segment，flush后，该ThreadState的dwpt为null，

//下次使用该ThreadState，创建新的dwpt，新的segment。

DocumentsWriterPerThread

2 flush条件

索引一个文档后，找出是否有达到flush条件的segment。

1：如果maxBufferedDocs（默认-1，es未设置）不等于-1，且当前segment在内存中的doc数量大于等于maxBufferedDocs，则标记该segment的flushPending。

2：如果不满足1，且ramBufferSizeMB（默认16.0，es设置为es.index.memory.max_index_buffer_size)不等于-1，当内存中当前IndexWriter所有segment之和(包括deleted docs）大于ramBufferSizeMB时，找出内存中最大的且未标记flushPending的segment，标记该segment的flushPending。

3：如果当前1，2之后，当前segment还未标记flushPending，则当前segment大于perThreadHardLimitMB(默认1945，es未设置)，标记该segment的flushPending。

123之后，如果当前segment被标记，则flush当前segment。否则从flushQueue中poll一个segment，如果flushQueue（调用flush时，将所有segment加入queue）为空，则遍历segment取第一个标记flushPending的segment进行flush。

相关代码：

//查找符合flush的segment。

DocumentsWriterFlushControl.doAfterDocument

//flush当前segment前，reset当前dwpt，下次使用当前ThreadState需要新的dwpt，新的segment。

DocumentsWriterFlushControl.internalTryCheckOutForFlush

//flush当前segment，或者其他segment。

DocumentsWriter.postUpdate

注意：除了达到flush条件的自动flush，还可以通过调用api flush，如：

1：es refresh

2：es flush

3：es syncedFlush

3 flush

flush将内存中的segment写到文件（在调用线程中同步执行），但不执行fileChannel.force(nio，bio则fileOutputStream.flush)，一部分数据可能在buffer中。

相关代码：

//flush一个segment。

DocumentsWriter.doFlush

DocumentsWriterPerThread.flush

DefaultIndexingChain.flush

//写nvd, nvm文件。

writeNorms

//写dvd, dvm文件。

writeDocValues

//写dii, dim文件。

writePoints

//写fdt, fdx文件（该文件在首次indexing时创建，flush时写入值）。

storedFieldsConsumer.flush

//写doc, pos, tim, tip文件。

termsHash.flush

//写fnm文件。

docWriter.codec.fieldInfosFormat().write

//写cfs, cfe, si, liv（如果有删除）文件。

DocumentsWriterPerThread.sealFlushedSegment

//删除cfs, cfe, si, liv（如果有删除）之外的文件。

IndexWriter.doAfterFlush

4 commit

commit执行fileChannel.force，将buffer中的数据写到磁盘。具体步骤为：

1：flush all segments 将内存中所有的segments写到文件。

2：依次sync pending_segments_n，segment files（fileChannel.force）将这写文件同步到磁盘。

3：将pending_segments_n重命名为segments_n，删除旧的segments_n-1。

4：如果步骤1 flush了segment，执行maybeMerge，如果达到merge条件，将会merge。

相关代码：

//commit。

IndexWriter.commit

IndexWriter.commitInternal

IndexWriter.prepareCommitInternal

//flush segments。

DocumentsWriter.flushAllThreads

//sync file。

IndexWriter.startCommit

Directory.sync

IOUtils.fsync

FileChannel.force

FileChannelImpl.force

//更新commit信息segments_n，删除旧的segments_n-1。

IndexWriter.finishCommit

//如果达到merge条件，将会merge。

IndexWriter.maybeMerge

5 maybeMerge

flush或者commit后，如果flush了segment，执行maybeMerge，如果达到merge条件，将执行merge（异步执行）。具体步骤为：

1：将segments按size降序排列。

2：计算total segments size 和 minimum segment size。

3：total segments size过滤掉tooBigSegment(大于max_merged_segment/2.0)的segment，并记录tooBigCount；minSegmentBytes如果小于floor_segment（默认2mb)，取2mb。

4：计算allowedSegCountInt，当segments（不包含tooBigSegment）数量大于此数，将触发merge。

5：从大到小（之前的降序排列），贪心找出不大于maxMergeAtOnce个，且size总和不大于maxMergedSegmentBytes个segments进行merge。

相关代码：

//maybeMerge。

IndexWriter.maybeMerge

IndexWriter.updatePendingMerges

//查找可merge的segments。

TieredMergePolicy.findMerges

//执行merge。

ConcurrentMergeScheduler.merge

//控制merge线程数量

ConcurrentMergeScheduler.maybeStall

//用来异步执行merge的线程。

MergeThread

6 es refresh

主要执行lucene的flushAllThreads和maybeMerge。refresh的两个条件：

1：达到refresh_interval设置的时间间隔。

2：节点所有shard的segments占用内存(调用lucene api获取）之和达到indices.memory.index_buffer_size，找出占用最大的shard执行refresh。

相关代码：

　//refresh_interval refresh。
　IndexService.AsyncRefreshTask
　//indices.memory.index_buffer_size refresh。
　IndexingMemoryController.runUnlocked
　IndexingMemoryController.writeIndexingBufferAsync

//es refresh。

InternalEngine.refresh

//lucene refresh。

ReferenceManager.maybeRefreshBlocking

DirectoryReader.openIfChanged

StandardDirectoryReader.doOpenIfChanged

IndexWriter.getReader

//flush segments。

DocumentsWriter.flushAllThreads

//如果flush了segment，则执行maybeMerge。

IndexWriter.maybeMerge

7 es flush

主要执行步骤为：

1：prepareCommit translog：

1.1 备份 translog.ckp到translog-1.ckp。

1.2 fsync translog-1.ckp以及translog 文件夹。

1.3 创建新的translog数据文件translog-n.tlog，更新translog.ckp（写入checkPoint）。

2：commit indexWriter(见4 commit)。

3：refresh（见6 es refresh)。

4：commit translog：删除备份的translog-1.ckp以及旧的translog数据文件translog-n-1.tlog。

相关代码：

//es flush。

InternalEngine.flush

//prepareCommit translog。

Translog.prepareCommit

//es commit index writer。

InternalEngine.commitIndexWriter

//lucene commit。

IndexWriter.commit

//es refresh。

InternalEngine.refresh

//commit translog。

Translog.commit

总结2：lucene的flush是指将内存中的segment，写到磁盘但不执行fileChannel.force，一部分数据会在buffer中；commit会调用force，将buffer中的数据写到磁盘。

es的refresh调用lucene的flush；flush调用lucene的commit。

参考：

elasticsearch5.6.12，lucene6.6.1 源码

https://www.outcoldman.com/en/archive/2017/07/13/elasticsearch-explaining-merge-settings/

http://blog.mikemccandless.com/2011/02/visualizing-lucenes-segment-merges.html

lucene segment的产生，flush， commit与es的refresh，flush的更多相关文章

lucene segment会包含所有的索引文件，如tim tip等，可以认为是mini的独立索引
A Lucene index segment can be viewed as a "mini" index or a shard. Each segment is a colle ...
lucene IndexOptions可以设置DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS DOCS，ES里也可以设置
org.apache.lucene.index Enum Constants Enum Constant and Description DOCS_AND_FREQS Only documents ...
sqlalchemy flush commit
https://segmentfault.com/q/1010000000698181 flush 将sql发送到内存 commit 真正提交
Luke 5—— 可视化 Lucene 索引查看工具，可以查看ES的索引
Luke 5 发布,可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch ...
NEST refresh flush forcemerge
public void Refresh() { client.Refresh("employee"); } public void Flush() { client.Flush(& ...
Elasticsearch Lucene 数据写入原理 | ES 核心篇
前言最近 TL 分享了下 <Elasticsearch基础整理>https://www.jianshu.com/p/e8226138485d ,蹭着这个机会.写个小文巩固下,本文主要讲 ...
es相关
1.es在数据量很大的情况下(数十亿级别)如何提高查询性能啊? 2.es生产集群的部署架构是什么?每个索引的数据量大概有多少?每个索引大概有多少个分片? 3.es的分布式架构原理能说一下么(es是如何 ...
面试系列八 es写入数据的工作原理
(1)es写数据过程 1)客户端选择一个node发送请求过去,这个node就是coordinating node(协调节点) 2)coordinating node,对document进行路由,将请求 ...
ElasticSearch专栏
1.es的分布式架构原理(es是如何实现分布式)? elasticsearch设计的理念就是分布式搜索引擎,底层其实还是基于lucene的.核心思想就是在多台机器上启动多个es进程实例,组成了一个es ...

随机推荐

Elasticsearch之探索集群信息
REST API 启动并运行了节点和集群,下一步是了解如何与它进行通信.elasticsearch提供了一个非常全面和强大的REST API,可以使用它与集群进行交付. 使用API完成以下: • 检查 ...
python开篇随记
脚本环境,解释器处理 #!/usr/bin/env python # -*- coding:utf-8 -*- 变量 ■ 变量名只能由字母.数字和下划线组合 ■ 变量名不能以数字开头 ■ 关键字不能自 ...
webstock学习
1.WebSocket是HTML5中出出现的新技术,有着web TCP之称,这也是为了适应现在实时传输数据的趋势,在这之前一般采用两种方法进行实时数据交换. 轮询机制,其中又包括长轮询. ①短轮询是指 ...
TAIL and HEAD
TAIL and HEAD tail tail:将指定的文件的最后部分输出到标准设备,通常是终端,和cat以及more等显示文本的差别在于:假设该档案有更新,tail会自己主动刷新,确保你看到最新的档 ...
react-native入门学习( 一 )
开发环境配置因为个人电脑是windows7环境,所以在选择安装react-native 环境的时候是用的 windows+androidreact-native中文网文档地址 https://re ...
input禁止显示用户输入历史记录
input标签中加上属性autocomplete="off"
SpringMVC、Spring和Struts的区别
http://www.cnblogs.com/hhx626/p/6010293.html 导读:近期做到的项目中,用到的框架师SSM(SpringMVC+Spring+Mybatis),那么在这之前用 ...
分布式锁----浅析redis实现
引言大概两个月前小伙伴问我有没有基于redis实现过分布式锁,之前看redis的时候知道有一个RedLock算法可以实现分布式锁,我接触的分布式项目要么是github上开源学习的,要么是小伙伴们公司项 ...
dfs染色法判定二分图
#include<iostream> #include<cstring> using namespace std; ][],color[],n; int dfs(int x,i ...
【Codeforces #228】Solutions
http://codeforces.com/contest/389 重新把号刷到Div 1 准备ACM?(我这么菜还是玩玩算了……) 官方题解出的很快 Div2 A: 怎么做都行……随便找俩数减就可以 ...

lucene segment的产生，flush， commit与es的refresh，flush

lucene segment的产生，flush， commit与es的refresh，flush的更多相关文章

随机推荐

热门专题