ElasticSearch性能优化策略【转】

ElasticSearch性能优化主要分为4个方面的优化。

一、服务器部署

二、服务器配置

三、数据结构优化

四、运行期优化

一、服务器部署

1、增加1-2台服务器，用于负载均衡节点

elasticSearch的配置文件中有2个参数：node.master和node.data。这两个参数搭配使用时，能够帮助提供服务器性能。

1.1> node.master: false node.data: true

该node服务器只作为一个数据节点，只用于存储索引数据。使该node服务器功能单一，只用于数据存储和数据查询，降低其资源消耗率。

1.2> node.master: true node.data: false

该node服务器只作为一个主节点，但不存储任何索引数据。该node服务器将使用自身空闲的资源，来协调各种创建索引请求或者查询请求，讲这些请求合理分发到相关的node服务器上。

1.3> node.master: false node.data: false

该node服务器即不会被选作主节点，也不会存储任何索引数据。该服务器主要用于查询负载均衡。在查询的时候，通常会涉及到从多个node服务器上查询数据，并请求分发到多个指定的node服务器，并对各个node服务器返回的结果进行一个汇总处理，最终返回给客户端。

2、关闭data节点服务器中的http功能

针对ElasticSearch集群中的所有数据节点，不用开启http服务。将其中的配置参数这样设置：http.enabled: false，同时也不要安装head, bigdesk, marvel等监控插件，这样保证data节点服务器只需处理创建/更新/删除/查询索引数据等操作。

http功能可以在非数据节点服务器上开启，上述相关的监控插件也安装到这些服务器上，用于监控ElasticSearch集群状态等数据信息。

这样做一来出于数据安全考虑，二来出于服务性能考虑。

3、一台服务器上最好只部署一个Node

一台物理服务器上可以启动多个Node服务器节点（通过设置不同的启动port），但一台服务器上的CPU,内存，硬盘等资源毕竟有限，从服务器性能考虑，不建议一台服务器上启动多个node节点。

二、服务器配置

1、配置索引线程池的大小

ElastiSearch服务器有多个线程池大小配置。主要有：index，search，suggest， get，bulk，percolate，snapshot，snapshot_data，warmer，refresh。

在此主要针对index和search进行一个配置调整。index操作包含：创建/更新/删除索引数据。search操作主要针对用户的各种搜索操作。

具体配置如下：

threadpool:

index:

type: fixed

size: 100

search:

type: fixed

size: 1000

2、创建/查找索引设置相同的分词解析器

索引服务器用到了ik中文分词插件，对于添加到该搜索服务器中的数据都使用该中文分词（例如orgglobal对象中的orgName就使用了ik中文分词）。当执行搜索请求时，搜索关键词也需要用到相关的中文分词器，如果不指定设置的话，则会使用服务器默认的中文分词standard，而使用standard作为中文分词器进行查询时，性能不好。通过将ik中分词设置为默认的分词器时，则查询效率是standard的2-3倍。

该配置具体如下：

index:

analysis:

analyzer:

ik:

alias: [news_analyzer_ik,ik_analyzer]

type: org.elasticsearch.index.analysis.IkAnalyzerProvider

index.analysis.analyzer.default.type: ik

3、确定分片(shard)的数量和副本(replica)的数量

ElasticSearch在创建索引数据时，最好指定相关的shards数量和replicas，

否则会使用服务器中的默认配置参数shards=5，replicas=1。

因为这两个属性的设置直接影响集群中索引和搜索操作的执行。假设你有足够的

机器来持有碎片和副本，那么可以按如下规则设置这两个值：

1) 拥有更多的碎片可以提升索引执行能力，并允许通过机器分发一个大型的索引；

2) 拥有更多的副本能够提升搜索执行能力以及集群能力。

对于一个索引来说，number_of_shards只能设置一次，而number_of_replicas可以使用索引更新设置API在任何时候被增加或者减少。

这两个配置参数在配置文件的配置如下：

index.number_of_shards: 5

index.number_of_shards: 1

4、查询速度慢的日志配置

在进行实际应用中，会记录下查询速度慢或者添加索引速度慢的操作记录，为后

续性能优化提供依据。其具体配置如下：

index.search.slowlog.threshold.query.warn: 10s

index.search.slowlog.threshold.query.info: 5s

index.search.slowlog.threshold.query.debug: 2s

index.search.slowlog.threshold.query.trace: 500ms

index.search.slowlog.threshold.fetch.warn: 1s

index.search.slowlog.threshold.fetch.info: 800ms

index.search.slowlog.threshold.fetch.debug: 500ms

index.search.slowlog.threshold.fetch.trace: 200ms

index.indexing.slowlog.threshold.index.warn: 10s

index.indexing.slowlog.threshold.index.info: 5s

index.indexing.slowlog.threshold.index.debug: 2s

index.indexing.slowlog.threshold.index.trace: 500ms

三、数据结构优化

1、尽量减少不需要的字段

ElasticSearch中存储的数据是用于搜索服务，因此其他一些不需要用于搜索的字段最好不存到ES中，这样即节省空间，同时在相同的数据量下，也能提高搜索性能。

2、routing值的设置

通常情况下，往ElasticSearch服务器添加索引数据时，是无需指定routing值。ElasticSearch会根据索引Id，将该条数据存储到ElasticSearch集群中的一个shard中。而当指定了routing值为accountId(用户Id)，则ElasticSearch会将相同accountId的多个数据都存放到同一个shard中，后续查询的时候，在指定routing值后，ElasticSearch只需要查询一个shard就能得到所有需要的数据，而不用再去查询所有的shard，从而大大提供了搜索性能。

四、运行期优化

1、optimize

随着时间的推移，ElasicSearch中每个shard的数据也会越来越多，索引越来越大，而生成的segment（在每个shard中，每个索引文件实际是由多个sgment文件组成）也会越来越多。而segment越多的话，则查询的性能越差，所以通过调用optimize命令，将多个segment合并成更少数量的segment(最少为一个)，从而来提高查询性能。

在调用该命令时，可以设置几个参数，这些参数的具体含义如下：

1.1> max_num_segments

段数优化。要全面优化索引，将其设置为1。默认设置只需检查是否需要执行一个合并，如果需要，则执行它。【经过测试，该值越小，查询速度越快】

1.2> only_expunge_deletes

该优化操作是否只清空打有删除标签的索引记录。在Lucence中，在执行删除操作时，不会直接删除segment中的记录，而是对该记录打上delete标签。当多个segment进行合并操作时，就会生成一个新的segment，而该新的segment中不再包含删除的记录。这个参数允许只对哪些包含删除记录的segment进行优化操作。

1.3>flush

在执行完优化操作之后，再执行刷新操作。默认值为true

1.4>wait_for_merge

当该参数设置为true时，表示其他请求操作要等到合并segment操作结束之后，再进行响应。值得注意的是，由于这个优化操作是一个非常耗时，耗资源的事情，用户提交的请求操作是不能容忍等待这么久，所以这个参数最好设置为false.

具体调用命令如下：

http://localhost:9200/indexName/_optimize?only_expunge_deletes=true&wait_for_merge=false

2、warmers

当ElasticSearch服务器启动之后，业务系统中要使用的索引数据暂时没有导入到内存中，因此当用户进行第一次数据搜索时，会因为数据导入耗时很久，而严重影响用户的使用体验。为了解决该问题，可以使用warmer工具。通过ElastiSearch提供的工具，可以register/delete/get特定名称的warmer。通常情况下，warmer包含的请求需要载入大量的索引数据（例如在数据搜索中需要针对特定字段的排序操作，或者用到一些聚合sum,min,max函数的查询等），这样才能达到预热的效果。

具体调用示例如下（下面的warmer是针对索引名为test的warmer,warmer定义的名字为warmer_1）：

curl -XPUT localhost:9200/test/_warmer/warmer_1 -d '{

"query" : {

"match_all" : {}

"aggs" : {

"aggs_1" : {

"terms" : {

"field" : "field"

}

ElasticSearch性能优化策略【转】的更多相关文章

亿级 Elasticsearch 性能优化
前言最近一年使用 Elasticsearch 完成亿级别日志搜索平台「ELK」,亿级别的分布式跟踪系统.在设计这些系统的过程中,底层都是采用 Elasticsearch 来做数据的存储,并且数据量都 ...
常见性能优化策略的总结 good
阅读目录代码数据库缓存异步 NoSQL JVM调优多线程与分布式度量系统(监控.报警.服务依赖管理) 案例一:商家与控制区关系的刷新job 案例二:POI缓存设计与实现案例三:业务运营后 ...
90 % Java 程序员被误导的一个性能优化策略
我们经常看到一些 Java 性能优化的书或者理念,说不要在循环内定义变量,这样会占用过多的内存影响性能,而要在循环外面定义.接触 Java 这么久以来,相信很多 Java 程序员都被这种代码性能优化策 ...
在 Android开发中，性能优化策略十分重要
在 Android开发中,性能优化策略十分重要本文主要讲解性能优化中的布局优化,希望你们会喜欢.目录示意图 1. 影响的性能布局性能的好坏主要影响 :Android应用中的页面显示速度 2. 如 ...
c++ 性能优化策略
c++ 性能优化策略作者:D_Guco 来源:CSDN 原文:https://blog.csdn.net/D_Guco/article/details/75729259 1 关于继承:不可否认良好的 ...
52 条 SQL 语句性能优化策略，建议收藏
本文会提到 52 条 SQL 语句性能优化策略. 1.对查询进行优化,应尽量避免全表扫描,首先应考虑在where及order by涉及的列上建立索引. 2.应尽量避免在where子句中对字段进行nul ...
HBase最佳实践－写性能优化策略
本篇文章来说道说道如何诊断HBase写数据的异常问题以及优化写性能.和读相比,HBase写数据流程倒是显得很简单:数据先顺序写入HLog,再写入对应的缓存Memstore,当Memstore中数据大小 ...
Web前端性能优化策略
前端性能优化需要从前端的资源类型分析,以减少请求资源和请求时间为目的.目前的类型包括图片.javascript.css.动态数据等,不同的资源对于运算.带宽等的依赖也不同,因此优化的方式也不同.参照以 ...
MIC性能优化策略
MIC性能优化主要包括系统级和内核级:系统级优化包括节点之间,CPU与MIC之间的负载均衡优化:MIC内存空间优化:计算与IO并行优化:IO与IO并行优化:数据传递优化:网络性能优化:硬盘性能优化等. ...

随机推荐

P1356 数列的整数性
P1356 数列的整数性打的骗分,在多组数据的情况下还能骗到分,可以了.又TMD是dp.f[i][j]表示+-第i个数能否达到%p后的余数j,如果f[n][0]==true就可以. #include& ...
《大型分布式网站架构》学习笔记--01SOA
"学无长幼,达者为先",作者陈康贤通过3年左右时间就能写出如此著作确实令人钦佩,加油,熊二,早日成为一个合格的后端程序员. 基础概念 SOA(Service-Oriented Ar ...
Vim-一款好用的文本编辑器
关于vim的使用,通过博客,无论是静态的截图或者是代码/文本复制,很难展示所要表现的内容.更多需要读者亲自敲键盘实践之后才知道其作用. 本文不会也无法描述vim过多的细节,仅仅是对于常用的命令做一下记 ...
mysql-ubuntu卸载安装mysql
安装MySQL sudo apt-get install mysql-server mysql-client 查看状态是否是运行中 sudo service mysql status 启动MySQL ...
Linux笔记 rm -rf 嘻嘻
学习目标:常用linux命令的使用 JAVAEE :后台应用都会涉及到linux系统,应用程序的部署,运维,分布式集群,大数据,云计算虚拟机:虚拟出来的计算机虚拟机软件:用来产生虚拟机的一个软件 ...
Python学习——迭代器&生成器&装饰器
一.迭代器迭代器是访问集合元素的一种方式.迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束.迭代器只能往前不会后退迭代器的一大优点是不要求事先准备好整个迭代过程中所有的元素.迭代器仅 ...
牛客练习赛27.B.手办(枚举)
题目链接 orz zzx! 题目看似要求\[\sum_{k=1}^n\sum_{a=1}^k\sum_{b=1}^k[k\mid a\times b]\] 实际我们可以求\[\sum_{k=1}^n\ ...
TXB0108 TXS0108E 8-Bit Bidirectional Voltage-Level Translator for Open-Drain and Push-Pull Applications
TXS(开漏优化设计),如I2C TXB(上拉优化设计),如SPI TXS0108 has integrated pull-up resistors to save board space and c ...
look-into-oracle-redo
https://fritshoogland.wordpress.com/2018/02/05/a-look-into-oracle-redo-part-2-the-discovery-of-the-k ...
Mui 下拉刷新，刷新完成功能实现
Mui中,正在刷新后,就直接回弹了,没有刷新完成这个过程,然后我就在中间添加了一个过程. 代码如下: //-----------日期格式化------------- function form ...

ElasticSearch性能优化策略【转】

ElasticSearch性能优化策略【转】的更多相关文章

随机推荐

热门专题