kafka生产消息，streaming消费

package com.bd.useranalysis.spark.streaming.kafka2es;

import com.alibaba.fastjson.JSON;

import com.bd.useranalysis.common.config.ConfigUtil;

import com.bd.useranalysis.common.project.datatype.DataTypeProperties;

import org.apache.kafka.clients.consumer.ConsumerRecord;

import org.apache.kafka.clients.producer.ProducerConfig;

import org.apache.kafka.common.serialization.StringDeserializer;

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.Function;

import org.apache.spark.api.java.function.VoidFunction;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaInputDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import org.apache.spark.streaming.kafka010.*;

import java.util.*;

public class Kafka2EsJava {

    Properties properties = ConfigUtil.getInstance().getProperties("kafka/kafka-server-config.properties");

    static Set<String> dataTypes = DataTypeProperties.dataTypeMap.keySet();

    public static void main(String[] args) throws InterruptedException {

        SparkConf sparkConf = new SparkConf().setAppName("sparkstreaming_kafka2es").setMaster("local[2]");

        JavaSparkContext jsc = new JavaSparkContext(sparkConf);

        jsc.setLogLevel("WARN");

        JavaStreamingContext jss = new JavaStreamingContext(jsc, Durations.seconds(2L));

        Map<String, Object> kafkaParams = new HashMap<>();

        kafkaParams.put("bootstrap.servers","quyf:9092");

        kafkaParams.put("key.deserializer", StringDeserializer.class);

        kafkaParams.put("value.deserializer", StringDeserializer.class);

        kafkaParams.put("group.id", "test_20190815");

        kafkaParams.put("auto.offset.reset", "latest");

        kafkaParams.put("enable.auto.commit", true);

        List<String> topicList = Arrays.asList("test","test2");

        JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils.createDirectStream(jss,

                LocationStrategies.PreferConsistent(),

                ConsumerStrategies.Subscribe(topicList, kafkaParams)

        );

        JavaDStream<HashMap<String, String>> recordDS = stream.map(new Function<ConsumerRecord<String, String>, HashMap<String, String>>() {

            @Override

            public HashMap<String, String> call(ConsumerRecord<String, String> record) throws Exception {

                //System.out.println("consumer==>"+record.value());

                return JSON.parseObject(record.value(), HashMap.class);

            }

        });

        for (String type : dataTypes) {

            recordDS.filter(new Function<HashMap<String, String>, Boolean>() {

                @Override

                public Boolean call(HashMap<String, String> resultMap) throws Exception {

                    return resultMap.get("table").equals(type);

                }

            }).foreachRDD(new VoidFunction<JavaRDD<HashMap<String, String>>>() {

                @Override

                public void call(JavaRDD<HashMap<String, String>> mapJavaRDD) throws Exception {

                   mapJavaRDD.foreach(new VoidFunction<HashMap<String, String>>() {

                       @Override

                       public void call(HashMap<String, String> stringStringHashMap) throws Exception {

                           System.out.println(stringStringHashMap.toString());

                       }

                   });

                }

            });

        }

        jss.start();

        jss.awaitTermination();

    }

}

public class GenKafkaData {

    public static void main(String[] args) throws Exception {

        List<String> lines = IOUtils.readLines(new FileReader(

                new File("E:\\wechat\\wechat_source1_1111153.txt")));

        Producer<String, String> producer = getProducer();

        ArrayList<String> columns = DataTypeProperties.dataTypeMap.get("wechat");

        Map<String, String> dataMap = new HashMap<>();

        dataMap.put("table","wechat");

        for(String line : lines){

            String[] fields = line.split("\t");

            for (int i = 0; i < fields.length; i++) {

                dataMap.put(columns.get(i), fields[i]);

            }

            int index = 0;

            while(true){

                String lineRecord = JSON.toJSONString(dataMap);

                producer.send(new ProducerRecord<>("test2",null, lineRecord));

                Thread.sleep(1000);

                index++;

                System.out.println("send->"+lineRecord);

                if(index==10){

                    break;

                }

            }

            //System.out.println("send->"+lineRecord);

            //StringProducer.producer("test", lineRecord);

        }

    }

    public static Producer<String, String> getProducer(){

        Producer<String, String> producer =  new KafkaProducer<String, String>(createProducerProperties());

        return producer;

    }

    private static Properties createProducerProperties() {

        Properties props = new Properties();

//        props.put("key.serializer", "org.apache.kafka.common.serialization.StringSerializer");

//        props.put("value.serializer", "org.apache.kafka.common.serialization.StringSerializer");

        props.put("key.serializer", StringSerializer.class);

        props.put("value.serializer", StringSerializer.class);

        props.put("bootstrap.servers", "quyf:9092");

        props.put("linger.ms",1);

        props.put("acks", "all");

        // 消息发送最大尝试次数

        props.put("retries", 0);

        // 一批消息处理大小

        props.put("batch.size", 16384);

        // 增加服务端请求延时

        props.put("linger.ms", 1);

        // 发送缓存区内存大小

        props.put("buffer.memory", 33554432);

        return props;

    }

}

kafka生产消息，streaming消费的更多相关文章

kafka生产消息的速度跟什么有关？
kafka的吞吐量很大,在保证带宽的情况下,网上的一些测试表明3台broker,没有replication,6个partition的情况下,一般的写入速度可以达到300MB/s.参考:kakfa测试 ...
kafka生产者与消费者的生产消息与消费消息所遇到的问题
当我们用API写kafka的时候生产者生产消息,但是消费者接收不到消息?集群上启动消费者显示生产的消息.我们需要修改一下配置 (1)我们打开在虚拟机中修改kafka集群的配置文件 [root@spa ...
kafka 保证消息被消费和消息只消费一次
1. 保证消息被消费即使消息发送到了消息队列,消息也不会万无一失,还是会面临丢失的风险. 我们以 Kafka 为例,消息在Kafka 中是存储在本地磁盘上的, 为了减少消息存储对磁盘的随机 I/O, ...
用canal同步binlog到kafka，spark streaming消费kafka topic乱码问题
canal 1.1.1版本之后, 默认支持将canal server接收到的binlog数据直接投递到MQ, 目前默认支持的MQ系统有kafka和RocketMQ. 在投递的时候我们使用的是非压平的消 ...
spark streaming - kafka updateStateByKey 统计用户消费金额
场景餐厅老板想要统计每个用户来他的店里总共消费了多少金额,我们可以使用updateStateByKey来实现从kafka接收用户消费json数据,统计每分钟用户的消费情况,并且统计所有时间所有用户 ...
kafka生产消费原理笔记
一.什么是kafka Kafka是最初由Linkedin公司开发,是一个分布式.支持分区的(partition).多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性 ...
Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...
Python 基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控
基于Python结合pykafka实现kafka生产及消费速率&主题分区偏移实时监控 By: 授客 QQ:1033553122 1．测试环境 python 3.4 zookeeper- ...
Spark streaming消费Kafka的正确姿势
前言在游戏项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark streaming从kafka中不 ...

随机推荐

HTML 颜色输入框修改事件的触发，以及获取修改后的颜色
HTML 颜色输入框修改事件的触发,以及获取修改后的颜色 <!DOCTYPE html> <html lang="en"> <head> < ...
Vue2.x与bootsrap-table动态添加元素和绑定事件无效
一.问题: 最近在使用vue与bootstrap-table结合生成表格时,按以前的经验----每列数据可用formatter:function(value,row,index){}进行一些其 ...
ZeroC ICE的远程调用框架 class与interface
我们在ice文件中定义的class或interface,slice都会为我们生成stub存根类和skeleton骨架类.在这里要注意slice并没有分别生成两份单独用在客户端或服务端的接口给开发分发. ...
JVM集训-----内存结构
一.程序计数器/PC寄存器 (Program Counter Registe) 用于保存当前正在执行的程序的内存地址(下一条jvm指令的执行地址),由于Java是支持多线程执行的,所以程序执行的轨迹不 ...
树莓派4B安装netcore
准备材料 SDFormatter.exe ---格式化SD卡,空的SD就可以不用了 2019-09-26-raspbian-buster.img ---下载好树莓派系统镜像 win32diskimag ...
【Luogu P1502】窗口的星星
Luogu P1502 题意很好理解,就是问给出的矩形套住的最大和. 但是做起来却十分麻烦. --来自疯狂爆10分的愤怒一个比较高效的思路是--把每一个星星作为左下角向右上方拓展形成一个矩形, 拓展 ...
ArrayList实现原理（JDK1.8）
ArrayList实现原理(JDK1.8) public class ArrayList<E> extends AbstractList<E> implements List& ...
前端开发单位em
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8&quo ...
Mybatis整合spring(适合小白)
目录 1.整合思路 2.整合需要的jar包 3.整合的步骤 4.Dao的开发的两种实现方式 6.Dao的开发的实现方式总结图 @ Mybatis整合spring其实就是SSM框架中SM的整合集成. 1 ...
logistic回归介绍以及原理分析
1.什么是logistic回归? logistic回归虽然说是回归,但确是为了解决分类问题,是二分类任务的首选方法,简单来说,输出结果不是0就是1 举个简单的例子: 癌症检测:这种算法输入病理图片并且 ...

kafka生产消息，streaming消费

kafka生产消息，streaming消费的更多相关文章

随机推荐

热门专题