自定义Spark Partitioner提升es-hadoop Bulk效率—

对于es 2.4版本，要能定制spark partitioner需要如下方式启动spark shell：

spark-2.0.0-bin-hadoop2.6/bin/spark-shell --jars elasticsearch-hadoop-5.0.1/dist/elasticsearch-spark-20_2.11-5.0.1.jar,elasticsearch-2.4.1/lib/elasticsearch-2.4.1.jar,elasticsearch-2.4.1/lib/lucene-core-5.5.2.jar

因为es 2.4的路由方式依赖es jar包里的murmurhash函数：

import org.apache.spark._

import org.apache.spark.streaming._

import org.elasticsearch.spark._

import org.apache.spark.Partitioner

import org.elasticsearch.hadoop.cfg.PropertiesSettings

import org.elasticsearch.spark.cfg.SparkSettingsManager

import org.elasticsearch.hadoop.cfg.Settings

import org.elasticsearch.hadoop.rest.RestRepository

import scala.collection.JavaConversions._

import org.elasticsearch.cluster.routing.Murmur3HashFunction;

import org.elasticsearch.common.math.MathUtils;

// 自定义Partitioner

class ESShardPartitioner(settings: String) extends org.apache.spark.Partitioner {

  protected var _numPartitions = -1;  

  override def numPartitions: Int = {

    val newSettings = new org.elasticsearch.hadoop.cfg.PropertiesSettings().load(settings);

    // 生产环境下，需要自行设置索引的 index/type，我是以web/blog作为实验的index

    newSettings.setResourceRead("web/blog"); // ******************** !!! modify it !!! ********************

    newSettings.setResourceWrite("web/blog"); // ******************** !!! modify it !!! ********************

    val repository = new org.elasticsearch.hadoop.rest.RestRepository(newSettings);

    val targetShards = repository.getWriteTargetPrimaryShards(newSettings.getNodesClientOnly());

    repository.close();

    // targetShards ??? data structure

    _numPartitions = targetShards.size();

    println("********************numPartitions*************************");

    println(_numPartitions);

    _numPartitions;

  }

  override def getPartition(docID: Any): Int = {

    val _hashFunction = new org.elasticsearch.cluster.routing.Murmur3HashFunction;

    val r = _hashFunction.hash(docID.toString());

    val shardId = org.elasticsearch.common.math.MathUtils.mod(r, _numPartitions);

    println("********************shardId*************************");

    println(shardId)

    shardId;

  }

}

sc.getConf.setMaster("local").setAppName("RDDTest").set("es.nodes", "127.0.0.1").set("spark.serializer", "org.apache.spark.serializer.KryoSerializer").set("es.index.auto.create", "true");

val ssc = new StreamingContext(sc, Seconds(2));

val fileStream = ssc.textFileStream("/tmp/data");

fileStream.foreachRDD { rdd => {

    def makeItem(content: String) : (String, Map[String,String]) = {

        val uuid = java.util.UUID.randomUUID.toString();

        (uuid, Map("content"->content, "uuid"->uuid))

    }

    println("********************start*************************");

    println("********************default partition size*************************");

    println(rdd.partitions.size);

    var r2 = rdd.map(makeItem);

    val sparkCfg = new org.elasticsearch.spark.cfg.SparkSettingsManager().load(rdd.sparkContext.getConf)

    val settings = sparkCfg.save();

    var r3 = r2.partitionBy(new ESShardPartitioner(settings));

    // r3.map(x=>x._2).saveToEs("web/blog")

    println("********************changed partition size*************************");

    println(r3.partitions.size);

    r3.saveToEsWithMeta("web/blog")

    println("data count: " + rdd.count.toString);

    println("*********************end************************");

}};

ssc.start();

ssc.awaitTermination();

ES 其中一个机器的配置：

cluster.name: es_xxx

#cluster.name: es_single888

discovery.zen.ping.multicast.enabled: false

discovery.zen.ping.unicast.hosts: ["127.0.0.1:9300", "127.0.0.1:9301", "127.0.0.1:9302"]

#discovery.zen.ping.unicast.hosts: ["10.178.206.190:9300", "10.178.204.225:9300", "10.178.207.88:9300", "10.178.209.161:9300", "10.178.208.230:9300"]

network.host: 127.0.0.1

transport.tcp.port:

http.port:

index.refresh_interval: 30s

indices.memory.index_buffer_size: %

index.store.type: mmapfs

index.translog.flush_threshold_ops:

indices.store.throttle.type: none

index.legacy.routing.use_type: false

index.number_of_shards:

index.number_of_replicas:

自定义Spark Partitioner提升es-hadoop Bulk效率——续的更多相关文章

自定义Spark Partitioner提升es-hadoop Bulk效率
http://www.jianshu.com/p/cccc56e39429/comments/2022782 和 https://github.com/elastic/elasticsearch-ha ...
Spark自定义分区(Partitioner)
我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景.但是有些情况下,Spark内部不能符合咱们的需求 ...
提升 Hive Query 执行效率 - Hive LLAP
从 Hive 刚推出到现在,得益于社区对它的不断贡献,使得 Hive执行 query 效率显著提升.其中比较有代表性的功能如 Tez (将多个 job整合为一个DAG job)以及 CBO(Cost- ...
提升你的开发效率，10 个 NPM 使用技巧
对于一个项目,常用的一些npm简单命令包含的功能有:初始化一个文件夹(npm init),下载npm模块(npm install),创建测试(npm test) 和自定义脚本(npm run).但是, ...
atitit.提升软件开发的效率and 质量的那些强大概念and方法总结
atitit.提升软件开发的效率and 质量的那些强大概念and方法总结 1. 主流编程中三个最糟糕的问题 1 1.1. 从理解问题后到实现的时间很长 1 1.2. 理解和维护代码 2 1.3. 学 ...
Spark环境搭建（五）-----------Spark生态圈概述与Hadoop对比
Spark:快速的通用的分布式计算框架概述和特点: 1) Speed,(开发和执行)速度快.基于内存的计算:DAG(有向无环图)的计算引擎:基于线程模型: 2)Easy of use,易用 . 多语 ...
面试系列九 es 提高查询效率
,es性能优化是没有什么银弹的,啥意思呢?就是不要期待着随手调一个参数,就可以万能的应对所有的性能慢的场景.也许有的场景是你换个参数,或者调整一下语法,就可以搞定,但是绝对不是所有场景都可以这样. 一 ...
分布式协同AI基准测试项目Ianvs：工业场景提升5倍研发效率
摘要:全场景可扩展的分布式协同AI基准测试项目 Ianvs(雅努斯),能为算法及服务开发者提供全面开发套件支持,以研发.衡量和优化分布式协同AI系统. 本文分享自华为云社区<KubeEdge|分 ...
CSharpGL(30)用条件渲染(Conditional Rendering)来提升OpenGL的渲染效率
CSharpGL(30)用条件渲染(Conditional Rendering)来提升OpenGL的渲染效率当场景中有比较复杂的模型时,条件渲染能够加速对复杂模型的渲染. 条件渲染(Conditio ...

随机推荐

在ubuntu英文系统下使用中文输入法
How to install and use Chinese Input Method in the English Locale in Ubuntu ?(1) Check if there exis ...
Educational Codeforces Round 21 Problem E(Codeforces 808E) - 动态规划 - 贪心
After several latest reforms many tourists are planning to visit Berland, and Berland people underst ...
BZOJ 1063 道路设计（树形DP）
题目链接:http://61.187.179.132/JudgeOnline/problem.php?id=1063 题意:给出一个无环图( 也就是树,但是也有可能是森林),代表一个国家的城市.1是首 ...
加强树状数组luogu3368
暴力树状数组30分,这该怎么办: 知识点回顾差分数组中开头结尾改变了值之后求他的前缀,发现区间内所有数都改变然后我们做差分树状数组 #include<cstdio> using n ...
牌型种数|2015年蓝桥杯B组题解析第七题-fishers
牌型种数小明被劫持到X赌城,被迫与其他3人玩牌. 一副扑克牌(去掉大小王牌,共52张),均匀发给4个人,每个人13张. 这时,小明脑子里突然冒出一个问题: 如果不考虑花色,只考虑点数,也不考虑自己得 ...
C#用Linq查询Combox的数据源
https://www.cnblogs.com/sufei/archive/2010/01/12/1645763.html var result = ((DataTable) (this.ComSh ...
windows 模拟用户会话创建进程
在渗透当中,经常会碰到这样的问题.一个机器,机器上好几个用户,或者域内,想让某个机器的某个会话执行你想要执行的程序,或者中马,以当前会话来上线. 现在模拟如下的一个情况: 严格的DMZ,内网--> ...
MyEclipse快捷键大全【转】
-------------------------------------MyEclipse 快捷键1(CTRL)-------------------------------------Ctrl+1 ...
Java IO流-File类
2017-10-24 23:50:22 File类 File类:文件和目录路径名的抽象表示形式.该文件或者目录不一定真实存在. * 构造方法 File类有四种构造方法,主要采用的构造方法师第二种,也就 ...
Android Toast.makeText用法
Toast是Android中用来显示显示信息的一种机制,和Dialog不一样的是,Toast是没有焦点的,而且Toast显示的时间有限,过一定的时间就会自动消失.下面用一个实例来看看如何使用Toast ...

自定义Spark Partitioner提升es-hadoop Bulk效率——续

自定义Spark Partitioner提升es-hadoop Bulk效率——续的更多相关文章

随机推荐

热门专题