lucene segment的产生,flush, commit与es的refresh,flush
本文主要分析es lucene写入流程,lucene segment的产生,flush, commit与es的refresh,flush。
1 segment的产生
当索引一个文档时,如果存在空闲的segment(未被其他线程锁定),则取出空闲segment list中的最后一个segment(LIFO),并锁定,将文档索引至该segment,
找达到flush条件的segment,然后解锁,归还至空闲segment list,如果有达到flush条件的segment,flush该segment(同步执行)。
如果不存在,则创建新的segment,重复上述步骤。
总结1:如果并行的执行向一个索引,索引文档,则需要不同的segment。
相关代码:
//索引一个文档。
IndexWriter.updateDocument
//索引一个文档。
DocumentsWriter.updateDocument
//一个线程索引时锁定一个ThreadState对象,索引后归还至free list。
ThreadState
//ThreadState的属性,一个DocumentsWriterPerThread对应一个segment,flush后,该ThreadState的dwpt为null,
//下次使用该ThreadState,创建新的dwpt,新的segment。
DocumentsWriterPerThread
2 flush条件
索引一个文档后,找出是否有达到flush条件的segment。
1:如果maxBufferedDocs(默认-1,es未设置)不等于-1,且当前segment在内存中的doc数量大于等于maxBufferedDocs,则标记该segment的flushPending。
2:如果不满足1,且ramBufferSizeMB(默认16.0,es设置为es.index.memory.max_index_buffer_size)不等于-1,当内存中当前IndexWriter所有segment之和(包括deleted docs)大于ramBufferSizeMB时,找出内存中最大的且未标记flushPending的segment,标记该segment的flushPending。
3:如果当前1,2之后,当前segment还未标记flushPending,则当前segment大于perThreadHardLimitMB(默认1945,es未设置),标记该segment的flushPending。
123之后,如果当前segment被标记,则flush当前segment。否则从flushQueue中poll一个segment,如果flushQueue(调用flush时,将所有segment加入queue)为空,则遍历segment取第一个标记flushPending的segment进行flush。
相关代码:
//查找符合flush的segment。
DocumentsWriterFlushControl.doAfterDocument
//flush当前segment前,reset当前dwpt,下次使用当前ThreadState需要新的dwpt,新的segment。
DocumentsWriterFlushControl.internalTryCheckOutForFlush
//flush当前segment,或者其他segment。
DocumentsWriter.postUpdate
注意:除了达到flush条件的自动flush,还可以通过调用api flush,如:
1:es refresh
2:es flush
3:es syncedFlush
3 flush
flush将内存中的segment写到文件(在调用线程中同步执行),但不执行fileChannel.force(nio,bio则fileOutputStream.flush),一部分数据可能在buffer中。
相关代码:
//flush一个segment。
DocumentsWriter.doFlush
DocumentsWriterPerThread.flush
DefaultIndexingChain.flush
//写nvd, nvm文件。
writeNorms
//写dvd, dvm文件。
writeDocValues
//写dii, dim文件。
writePoints
//写fdt, fdx文件(该文件在首次indexing时创建,flush时写入值)。
storedFieldsConsumer.flush
//写doc, pos, tim, tip文件。
termsHash.flush
//写fnm文件。
docWriter.codec.fieldInfosFormat().write
//写cfs, cfe, si, liv(如果有删除)文件。
DocumentsWriterPerThread.sealFlushedSegment
//删除cfs, cfe, si, liv(如果有删除)之外的文件。
IndexWriter.doAfterFlush
4 commit
commit执行fileChannel.force,将buffer中的数据写到磁盘。具体步骤为:
1:flush all segments 将内存中所有的segments写到文件。
2:依次sync pending_segments_n,segment files(fileChannel.force)将这写文件同步到磁盘。
3:将pending_segments_n重命名为segments_n,删除旧的segments_n-1。
4:如果步骤1 flush了segment,执行maybeMerge,如果达到merge条件,将会merge。
相关代码:
//commit。
IndexWriter.commit
IndexWriter.commitInternal
IndexWriter.prepareCommitInternal
//flush segments。
DocumentsWriter.flushAllThreads
//sync file。
IndexWriter.startCommit
Directory.sync
IOUtils.fsync
FileChannel.force
FileChannelImpl.force
//更新commit信息segments_n,删除旧的segments_n-1。
IndexWriter.finishCommit
//如果达到merge条件,将会merge。
IndexWriter.maybeMerge
5 maybeMerge
flush或者commit后,如果flush了segment,执行maybeMerge,如果达到merge条件,将执行merge(异步执行)。具体步骤为:
1:将segments按size降序排列。
2:计算total segments size 和 minimum segment size。
3:total segments size过滤掉tooBigSegment(大于max_merged_segment/2.0)的segment,并记录tooBigCount;minSegmentBytes如果小于floor_segment(默认2mb),取2mb。
4:计算allowedSegCountInt,当segments(不包含tooBigSegment)数量大于此数,将触发merge。
5:从大到小(之前的降序排列),贪心找出不大于maxMergeAtOnce个, 且size总和不大于maxMergedSegmentBytes个segments进行merge。
相关代码:
//maybeMerge。
IndexWriter.maybeMerge
IndexWriter.updatePendingMerges
//查找可merge的segments。
TieredMergePolicy.findMerges
//执行merge。
ConcurrentMergeScheduler.merge
//控制merge线程数量
ConcurrentMergeScheduler.maybeStall //用来异步执行merge的线程。 MergeThread
6 es refresh
主要执行lucene的flushAllThreads和maybeMerge。refresh的两个条件:
1:达到refresh_interval设置的时间间隔。
2:节点所有shard的segments占用内存(调用lucene api获取)之和达到indices.memory.index_buffer_size,找出占用最大的shard执行refresh。
相关代码:
//refresh_interval refresh。
IndexService.AsyncRefreshTask
//indices.memory.index_buffer_size refresh。
IndexingMemoryController.runUnlocked
IndexingMemoryController.writeIndexingBufferAsync
//es refresh。
InternalEngine.refresh
//lucene refresh。
ReferenceManager.maybeRefreshBlocking
DirectoryReader.openIfChanged
StandardDirectoryReader.doOpenIfChanged
IndexWriter.getReader
//flush segments。
DocumentsWriter.flushAllThreads
//如果flush了segment,则执行maybeMerge。
IndexWriter.maybeMerge
7 es flush
主要执行步骤为:
1:prepareCommit translog:
1.1 备份 translog.ckp到translog-1.ckp。
1.2 fsync translog-1.ckp以及translog 文件夹。
1.3 创建新的translog数据文件translog-n.tlog,更新translog.ckp(写入checkPoint)。
2:commit indexWriter(见4 commit)。
3:refresh(见6 es refresh)。
4:commit translog:删除备份的translog-1.ckp以及旧的translog数据文件translog-n-1.tlog。
相关代码:
//es flush。
InternalEngine.flush
//prepareCommit translog。
Translog.prepareCommit
//es commit index writer。
InternalEngine.commitIndexWriter
//lucene commit。
IndexWriter.commit
//es refresh。
InternalEngine.refresh
//commit translog。
Translog.commit
总结2:lucene的flush是指将内存中的segment,写到磁盘但不执行fileChannel.force,一部分数据会在buffer中;commit会调用force,将buffer中的数据写到磁盘。
es的refresh调用lucene的flush;flush调用lucene的commit。
参考:
elasticsearch5.6.12,lucene6.6.1 源码
https://www.outcoldman.com/en/archive/2017/07/13/elasticsearch-explaining-merge-settings/
http://blog.mikemccandless.com/2011/02/visualizing-lucenes-segment-merges.html
lucene segment的产生,flush, commit与es的refresh,flush的更多相关文章
- lucene segment会包含所有的索引文件,如tim tip等,可以认为是mini的独立索引
A Lucene index segment can be viewed as a "mini" index or a shard. Each segment is a colle ...
- lucene IndexOptions可以设置DOCS_AND_FREQS_AND_POSITIONS_AND_OFFSETS DOCS,ES里也可以设置
org.apache.lucene.index Enum Constants Enum Constant and Description DOCS_AND_FREQS Only documents ...
- sqlalchemy flush commit
https://segmentfault.com/q/1010000000698181 flush 将sql发送到内存 commit 真正提交
- Luke 5—— 可视化 Lucene 索引查看工具,可以查看ES的索引
Luke 5 发布,可视化 Lucene 索引查看工具 oschina 发布于2015年08月31日 这是一个主要版本,该版本支持 Lucene 5.2.0. 它支持 elasticsearch ...
- NEST refresh flush forcemerge
public void Refresh() { client.Refresh("employee"); } public void Flush() { client.Flush(& ...
- Elasticsearch Lucene 数据写入原理 | ES 核心篇
前言 最近 TL 分享了下 <Elasticsearch基础整理>https://www.jianshu.com/p/e8226138485d ,蹭着这个机会.写个小文巩固下,本文主要讲 ...
- es相关
1.es在数据量很大的情况下(数十亿级别)如何提高查询性能啊? 2.es生产集群的部署架构是什么?每个索引的数据量大概有多少?每个索引大概有多少个分片? 3.es的分布式架构原理能说一下么(es是如何 ...
- 面试系列八 es写入数据的工作原理
(1)es写数据过程 1)客户端选择一个node发送请求过去,这个node就是coordinating node(协调节点) 2)coordinating node,对document进行路由,将请求 ...
- ElasticSearch专栏
1.es的分布式架构原理(es是如何实现分布式)? elasticsearch设计的理念就是分布式搜索引擎,底层其实还是基于lucene的.核心思想就是在多台机器上启动多个es进程实例,组成了一个es ...
随机推荐
- centos下svn的ldap认证配置
前提:完成svn的基本安装 一.安装sasl相关组件 #yum install -y cyrus-sasl cyrus-sasl-lib cyrus-sasl-plain 二.查看SASL版本和提供的 ...
- jQuery scrollLeft()与scrollTop() 源码解读
这里的实现也很容易懂,通过jQuery的静态方法each给jQuery的原型添加scrollLeft和scrollTop方法. 这里在取值时它把window和普通的element做了区分 如果是win ...
- Unity Shader入门精要学习笔记 - 第13章 使用深度和法线纹理
线纹理的代码非常简单,但是我们有必要在这之前首先了解它们背后的实现原理. 深度纹理实际上就是一张渲染纹理,只不过它里面存储的像素值不是颜色值而是一个高精度的深度值.由于被存储在一张纹理中,深度纹理里的 ...
- public private protected 三种访问修饰符在c#中的区别
1. public 公有的可见性:在类自身内部可见: 可被子类继承: 类外部可见 2. protected 受保护的可见性:在类自身内部可见: 可被子类继承: 类外部不可见 3. private 私有 ...
- 2019/05/11 JAVA虚拟机原理
所谓虚拟机,就是一台虚拟的机器.他是一款软件,用来执行一系列虚拟计算指令,大体上虚拟机可以分为 系统虚拟机和程序虚拟机, 大名鼎鼎的Visual Box.Vmare就属于系统虚拟机,他们完全是对物理计 ...
- 简述UML类图
注:本文摘自刘伟老师的博客http://blog.csdn.net/lovelion/article/details/7838679,如有侵权,请联系本人! 1.类的UML图示 在UML中,类使用包含 ...
- vue2.0:(四)、首页入门,组件拆分1
为什么需要组件拆分呢?这样才能更符合模块化这样一个理念. 首先是index.html,代码如下: <!DOCTYPE html> <html> <head> < ...
- vue之导入Bootstrap和Jquery
Vue引入bootstrap主要有两种方法 方法一:在main.js中引入,此方法导入的bootstrap中对于html,body的一些预设置的css样式可能无效. 一.引入jQuery 在当前项目的 ...
- Yii2.0 Cookies机制和使用方法
在实际的项目开发过程中,用到了Yii2.0 Cookies机制!但是遇到一个十分奇葩的问题,同一个YII框架,backend下Cookies能够正常存储于客户端,但是frontend始终不行.文章的最 ...
- 洛谷 P1168 中位数
题目描述 给出一个长度为N的非负整数序列A[i],对于所有1 ≤ k ≤ (N + 1) / 2,输出A[1], A[3], …, A[2k - 1]的中位数.[color=red]即[/color] ...