ES bulk源码分析—

对bulk request的处理流程：

1、遍历所有的request，对其做一些加工，主要包括：获取routing(如果mapping里有的话)、指定的timestamp(如果没有带timestamp会使用当前时间)，如果没有指定id字段，在action.bulk.action.allow_id_generation配置为true的情况下，会自动生成一个base64UUID作为id字段，并会将request的opType字段置为CREATE，因为如果是使用es自动生成的id的话，默认就是createdocument而不是updatedocument。（注：坑爹啊，我从github上面下的最新的ES代码，发现自动生成id这一段已经没有设置opType字段了，看起来和有指定id是一样的处理逻辑了，见https://github.com/elastic/elasticsearch/blob/master/core/src/main/java/org/elasticsearch/action/index/IndexRequest.java）。

2、创建一个shardId--> Operation的Map，再次遍历所有的request，获取获取每个request应该发送到的shardId，获取的过程是这样的：request有routing就直接返回，如果没有，会先对id求一个hash，这里的hash函数默认是Murmur3，当然你也可以通过配置index.legacy.routing.hash.type来决定使用的hash函数,决定发到哪个shard：

return MathUtils.mod(hash, indexMetaData.getNumberOfShards()); 注意：最新版ES代码已经改变！

即用hash对shard的总数求模来获取shardId，将shardId作为key，通过遍历的index和request组成BulkItemRequest的集合作为value放入之前说的map中（为什么要拿到遍历的index，因为在bulk response中可以看到对每个request的请求处理结果的），其实说了这么多就是要对request按shard来分组（为负载均衡）。

3、遍历上面得到的map，对不同的分组创建一个bulkShardRequest，包含配置consistencyLevel和timeout。并从集群state中获得primary shard，如果primary在本机就直接执行，如果不在会再发送到其shard所在的node。

源码位置：https://github.com/elastic/elasticsearch/blob/master/core/src/main/java/org/elasticsearch/action/bulk/TransportBulkAction.java

    void executeBulk(Task task, final BulkRequest bulkRequest, final long startTimeNanos, final ActionListener<BulkResponse> listener, final AtomicArray<BulkItemResponse> responses ) {

        final ClusterState clusterState = clusterService.state();

        // TODO use timeout to wait here if its blocked...

        clusterState.blocks().globalBlockedRaiseException(ClusterBlockLevel.WRITE);

        final ConcreteIndices concreteIndices = new ConcreteIndices(clusterState, indexNameExpressionResolver);

        MetaData metaData = clusterState.metaData();

        for (int i = 0; i < bulkRequest.requests.size(); i++) {

            DocWriteRequest docWriteRequest = bulkRequest.requests.get(i);

            //the request can only be null because we set it to null in the previous step, so it gets ignored

            if (docWriteRequest == null) {

                continue;

            }

            if (addFailureIfIndexIsUnavailable(docWriteRequest, bulkRequest, responses, i, concreteIndices, metaData)) {

                continue;

            }

            Index concreteIndex = concreteIndices.resolveIfAbsent(docWriteRequest);

            try {

                switch (docWriteRequest.opType()) {

                    case CREATE:

                    case INDEX:

                        IndexRequest indexRequest = (IndexRequest) docWriteRequest;

                        MappingMetaData mappingMd = null;

                        final IndexMetaData indexMetaData = metaData.index(concreteIndex);

                        if (indexMetaData != null) {

                            mappingMd = indexMetaData.mappingOrDefault(indexRequest.type());

                        }

                        indexRequest.resolveRouting(metaData);

                        indexRequest.process(mappingMd, allowIdGeneration, concreteIndex.getName());

                        break;

                    case UPDATE:

                        TransportUpdateAction.resolveAndValidateRouting(metaData, concreteIndex.getName(), (UpdateRequest) docWriteRequest);

                        break;

                    case DELETE:

                        TransportDeleteAction.resolveAndValidateRouting(metaData, concreteIndex.getName(), (DeleteRequest) docWriteRequest);

                        break;

                    default: throw new AssertionError("request type not supported: [" + docWriteRequest.opType() + "]");

                }

            } catch (ElasticsearchParseException | RoutingMissingException e) {

                BulkItemResponse.Failure failure = new BulkItemResponse.Failure(concreteIndex.getName(), docWriteRequest.type(), docWriteRequest.id(), e);

                BulkItemResponse bulkItemResponse = new BulkItemResponse(i, docWriteRequest.opType(), failure);

                responses.set(i, bulkItemResponse);

                // make sure the request gets never processed again

                bulkRequest.requests.set(i, null);

            }

        }

        // first, go over all the requests and create a ShardId -> Operations mapping

        Map<ShardId, List<BulkItemRequest>> requestsByShard = new HashMap<>();

        for (int i = 0; i < bulkRequest.requests.size(); i++) {

            DocWriteRequest request = bulkRequest.requests.get(i);

            if (request == null) {

                continue;

            }

            String concreteIndex = concreteIndices.getConcreteIndex(request.index()).getName();

            ShardId shardId = clusterService.operationRouting().indexShards(clusterState, concreteIndex, request.id(), request.routing()).shardId();

            List<BulkItemRequest> shardRequests = requestsByShard.computeIfAbsent(shardId, shard -> new ArrayList<>());

            shardRequests.add(new BulkItemRequest(i, request));

        }

        if (requestsByShard.isEmpty()) {

            listener.onResponse(new BulkResponse(responses.toArray(new BulkItemResponse[responses.length()]), buildTookInMillis(startTimeNanos)));

            return;

        }

        final AtomicInteger counter = new AtomicInteger(requestsByShard.size());

        String nodeId = clusterService.localNode().getId();

        for (Map.Entry<ShardId, List<BulkItemRequest>> entry : requestsByShard.entrySet()) {

            final ShardId shardId = entry.getKey();

            final List<BulkItemRequest> requests = entry.getValue();

            BulkShardRequest bulkShardRequest = new BulkShardRequest(shardId, bulkRequest.getRefreshPolicy(),

                    requests.toArray(new BulkItemRequest[requests.size()]));

            bulkShardRequest.waitForActiveShards(bulkRequest.waitForActiveShards());

            bulkShardRequest.timeout(bulkRequest.timeout());

            if (task != null) {

                bulkShardRequest.setParentTask(nodeId, task.getId());

            }

            shardBulkAction.execute(bulkShardRequest, new ActionListener<BulkShardResponse>() {

                @Override

                public void onResponse(BulkShardResponse bulkShardResponse) {

                    for (BulkItemResponse bulkItemResponse : bulkShardResponse.getResponses()) {

                        // we may have no response if item failed

                        if (bulkItemResponse.getResponse() != null) {

                            bulkItemResponse.getResponse().setShardInfo(bulkShardResponse.getShardInfo());

                        }

                        responses.set(bulkItemResponse.getItemId(), bulkItemResponse);

                    }

                    if (counter.decrementAndGet() == 0) {

                        finishHim();

                    }

                }

            });

        }

    }

路由代码：

ShardId shardId = clusterService.operationRouting().indexShards(clusterState, concreteIndex, request.id(), request.routing()).shardId();

ES bulk源码分析——ES 5.0的更多相关文章

模块化系列教程 | 深入源码分析阿里JarsLink1.0模块化框架
1. 概述 1.1 模块动态加载卸载主流程 2. 模块动态加载 2.1 模块加载源码分析 2.1.1 AbstractModuleRefreshScheduler 2.1.2 ModuleLoader ...
Android 框架学习2：源码分析 EventBus 3.0 如何实现事件总线
Go beyond yourself rather than beyond others. 上篇文章深入理解 EventBus 3.0 之使用篇我们了解了 EventBus 的特性以及如何使用,这 ...
Spring之WebContext不使用web.xml启动初始化重要的类源码分析（Servlet3.0以上的）
入口: org.springframework.web.SpringServletContainerInitializer implements ServletContainerInitializer ...
源码分析 SpringCloud 2020.0.4 版本 EurekaClient 的注册过程
1. 概述老话说的好:要善于思考,有创新意识. 言归正传,之前聊了 Springboot 的启动过程,今天来聊聊 Eureka Client 的注册过程. 2. Eureka Client 的注册过 ...
jQuery源码分析系列
声明:本文为原创文章,如需转载,请注明来源并保留原文链接Aaron,谢谢! 版本截止到2013.8.24 jQuery官方发布最新的的2.0.3为准附上每一章的源码注释分析 :https://git ...
[转]jQuery源码分析系列
文章转自:jQuery源码分析系列-Aaron 版本截止到2013.8.24 jQuery官方发布最新的的2.0.3为准附上每一章的源码注释分析 :https://github.com/JsAaro ...
分布式缓存技术之Redis_Redis集群连接及底层源码分析
目录 1. Jedis 单点连接 2. Jedis 基于sentinel连接基本使用源码分析本次源码分析基于: jedis-3.0.1 1. Jedis 单点连接当是单点服务时,Java ...
【转载】AsyncTask源码分析
原文地址:https://github.com/white37/AndroidSdkSourceAnalysis/blob/master/article/AsyncTask%E5%92%8CAsync ...
jQuery源码分析系列(转载来源Aaron.)
声明:非本文原创文章,转载来源原文链接Aaron. 版本截止到2013.8.24 jQuery官方发布最新的的2.0.3为准附上每一章的源码注释分析 :https://github.com/JsAa ...

随机推荐

Kali连接不上ssh
1.修改sshd_config文件 vim /etc/ssh/sshd_config 将#PasswordAuthentication yes的注释去掉将#PermitRootLogin prohi ...
PHP微信公众号后台开发（Yii2实现）
本文内容较多,包括微信接入.获取微信用户信息.微信支付.JSSDK配置参数获取等部分.如果读者对微信开发没有一个主观上的认识,那么建议读者先研读微信公众平台开发者文档,然后再阅读本文,效果更佳!另外本 ...
20145321 《网络对抗技术》 MSF基础应用
20145321 <网络对抗技术> MSF基础应用实验内容掌握metasploit的基本应用方式以及常用的三种攻击方式的思路主动攻击,即对系统的攻击,不需要被攻击方配合,这里以ms0 ...
20145208 蔡野《网络对抗》Exp3 Advanced 恶意代码伪装技术实践
20145208 蔡野<网络对抗>Exp3 Advanced 恶意代码伪装技术实践木马化正常软件思路: 在正常软件包中将原本的程序主文件(平时打开程序用的exe文件)改成dll后缀(或 ...
Educational Codeforces Round 21 Problem E(Codeforces 808E) - 动态规划 - 贪心
After several latest reforms many tourists are planning to visit Berland, and Berland people underst ...
CodeForces 76A Gift - 最小生成树
The kingdom of Olympia consists of N cities and M bidirectional roads. Each road connects exactly tw ...
Duilib 控件类html富文本绘制
转载:http://blog.csdn.net/wyansai/article/details/51088896 转载:http://blog.csdn.net/lixiang987654321/ar ...
mac下的一些操作
mac 下修改Hosts文件 : http://www.cnblogs.com/zhangqs008/p/3773623.html mac下装Tomcat服务器: 在苹果系统安装Tomcat:首先下载 ...
linux下安装与运行docker
写者环境: 1.lsb_release -a hello@hello:~$ lsb_release -aNo LSB modules are available.Distributor ID: Ubu ...
Java 多线程查找文件中的内容
学过了操作系统,突然不知道多线程有什么用了. 看了一下百度,发现多线程,可以提升系统利用率在系统进行IO操作的时候,CPU可以处理一些其他的东西,等IO读取到内存后,CPU再处理之前的操作. 总之可 ...

ES bulk源码分析——ES 5.0

ES bulk源码分析——ES 5.0的更多相关文章

随机推荐

热门专题