sparkstreaming消费kafka后bulk到es

不使用es-hadoop的saveToES，与scala版本冲突问题太多。
不使用bulkprocessor，异步提交，es容易oom，速度反而不快。
使用BulkRequestBuilder同步提交。

主要代码

public static void main(String[] args){

        System.setProperty("hadoop.home.dir", "D:\\hadoop");

        System.setProperty("es.set.netty.runtime.available.processors", "false");

        SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("SendRecord");

        conf.set("spark.streaming.backpressure.enabled", "true");

        conf.set("spark.streaming.receiver.maxRate", "1000");

        conf.set("spark.streaming.kafka.maxRatePerPartition", "1000");

        conf.set("es.nodes", "eshost");

        conf.set("es.port", "9200");

        JavaStreamingContext ssc = new JavaStreamingContext(conf, Durations.seconds(2));

        Map<String, Object> kafkaParams = new HashMap<>();

        kafkaParams.put("bootstrap.servers", "kafkahost:9092");

        kafkaParams.put("key.deserializer", StringDeserializer.class);

        kafkaParams.put("value.deserializer", StringDeserializer.class);

        kafkaParams.put("group.id", "sparkGroup4");

        kafkaParams.put("auto.offset.reset", "latest");

        kafkaParams.put("enable.auto.commit", false);

        Collection<String> topics = Arrays.asList("users");

        JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils.createDirectStream

                (ssc, LocationStrategies.PreferConsistent(), ConsumerStrategies.<String, String>Subscribe(topics, kafkaParams));

        JavaDStream<User> kafkaDStream = stream.map(new Function<ConsumerRecord<String, String>, User>() {

            @Override

            public User call(ConsumerRecord<String, String> record) throws Exception {

                Gson gson = new Gson();

                return gson.fromJson(record.value(), User.class);

            }

        });

        kafkaDStream.foreachRDD(new VoidFunction<JavaRDD<User>>() {

            @Override

            public void call(JavaRDD<User> userJavaRDD) throws Exception {

                userJavaRDD.foreachPartition(new VoidFunction<Iterator<User>>() {

                    @Override

                    public void call(Iterator<User> userIterator) throws Exception {

                        TransportClient client = ESClient.getClient();

                        BulkRequestBuilder bulkRequestBuilder = client.prepareBulk();

                        Map<String, Object> map = new HashMap<>();

                        while(userIterator.hasNext()){

                            User user = userIterator.next();

                            map.put("name", user.getName());

                            map.put("age", user.getAge());

                            map.put("desc", user.getDescription());

                            IndexRequest request = client.prepareIndex("users", "info").setSource(map).request();

                            bulkRequestBuilder.add(request);

                        }

                        if(bulkRequestBuilder.numberOfActions() > 0){

                            BulkResponse bulkItemResponses = bulkRequestBuilder.execute().actionGet();

                        }

                    }

                });

            }

        });

        ssc.start();

        try {

            // Wait for the computation to terminate.

            ssc.awaitTermination();

        } catch (InterruptedException e) {

            e.printStackTrace();

        }

    }

ESClient:

public class ESClient {

    public static TransportClient getClient(){

        return Holder.client;

    }

    private static class Holder{

        private static TransportClient client;

        static{

            try {

                Settings setting = Settings.builder()

                        .put("cluster.name", "es")

                        .put("client.transport.sniff", false)

                        .put("client.transport.ping_timeout", "60s")

                        .put("client.transport.nodes_sampler_interval", "60s")

                        .build();

                client = new PreBuiltTransportClient(setting);

                client.addTransportAddress(new TransportAddress(new InetSocketAddress("eshost",9300)));

            } catch (Exception e) {

                System.out.println(e.getMessage());

            }

        }

    }

}

sparkstreaming消费kafka后bulk到es的更多相关文章

SparkStreaming消费kafka中数据的方式
有两种:Direct直连方式.Receiver方式 1.Receiver方式: 使用kafka高层次的consumer API来实现,receiver从kafka中获取的数据都保存在spark exc ...
SparkStreaming消费Kafka，手动维护Offset到Mysql
目录说明整体逻辑 offset建表语句代码实现说明当前处理只实现手动维护offset到mysql,只能保证数据不丢失,可能会重复要想实现精准一次性,还需要将数据提交和offset提交维护在 ...
spark-streaming集成Kafka处理实时数据
在这篇文章里,我们模拟了一个场景,实时分析订单数据,统计实时收益. 场景模拟我试图覆盖工程上最为常用的一个场景: 1)首先,向Kafka里实时的写入订单数据,JSON格式,包含订单ID-订单类型-订 ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...
[Golang] 消费Kafka的日志提交到ElasticSearch
0x0 需求消费Kafka的日志并写入ElasticSearch供查询 0x1 依赖库 golang版Kafka客户端 https://github.com/Shopify/sarama golan ...
SparkStreaming获取kafka数据的两种方式：Receiver与Direct
简介: Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以简单理解成: Receiver方式是通过zookeeper来连接kafka队列, Dire ...
【Spark】SparkStreaming和Kafka的整合
文章目录 Streaming和Kafka整合概述使用0.8版本下Receiver DStream接收数据进行消费步骤一.启动Kafka集群二.创建maven工程,导入jar包三.创建一个k ...
图解SparkStreaming与Kafka的整合，这些细节大家要注意！
前言老刘是一名即将找工作的研二学生,写博客一方面是复习总结大数据开发的知识点,一方面是希望帮助更多自学的小伙伴.由于老刘是自学大数据开发,肯定会存在一些不足,还希望大家能够批评指正,让我们一起进步! ...
SparkStreaming和Kafka基于Direct Approach如何管理offset实现exactly once
在之前的文章<解析SparkStreaming和Kafka集成的两种方式>中已详细介绍SparkStreaming和Kafka集成主要有Receiver based Approach和Di ...

随机推荐

在字符串中查找id值MySQL
PHPmyadmin中sql语句 SELECT * FROM `hz_article_type` WHERE FIND_IN_SET( 5, items_id ) LIMIT 0 , 30 结果: S ...
Flex AIR应用换肤功能（Android和IOS)
说明换肤功能,即将整个应用的皮肤都进行更换,其实质,是动态加载swf文件的过程,而这些swf文件则有css文件编译而来. 关于换肤功能,在android和ios系统的实现方式是不同的.主要原因,是因 ...
4-3 xpath的用法
Vue 设置style属性
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
【js】vue 2.5.1 源码学习（十） $mount 挂载函数的实现
大体思路(九) 本节内容: 1. $mount 挂载函数的实现. // 将Vue.prototype.$mount 缓存下来 ==>mountComponet(this,el) { // 组建挂 ...
js 设置当前时间的后24小时、后一小时等相对时间
不管是设置相对当前时间有多久时间差的时间,思路:先获取当前时间的时间戳,再根据需求加减时间获得新的时间戳,然后取年月日与时分秒.实例: // 设置默认时间——先转化为毫秒数,加上 24 小时的毫秒数, ...
vue 路由跳转前确认框，刷新浏览器页面前提示确认框
先看效果图: 1.刷新页面效果: 2.跳转路由(进入别的页面前)效果: 代码: // 路由跳转确认 beforeRouteLeave(to, from, next) { const answer = ...
vue中 js获取图片尺寸设置不同样式
1.JS: 请求到后端数据后判断图片尺寸 2.HTML代码根据设置的类型,给图片添加不同的样式 3.CSS代码添加不同尺寸的样式
【t081】序列长度(贪心做法)
Time Limit: 1 second Memory Limit: 128 MB [问题描述] 有一个整数序列,我们不知道她的长度是多少(即序列中整数的个数),但我们知道在某些区间中至少有多少个整数 ...
阿里云 CentOS8 Repo
# CentOS-Base.repo # # The mirror system uses the connecting IP address of the client and the # upda ...

sparkstreaming消费kafka后bulk到es

sparkstreaming消费kafka后bulk到es的更多相关文章

随机推荐

热门专题