Spark集成Kafka实时流计算Java案例

package com.test;

import java.util.*;

import org.apache.spark.SparkConf;

import org.apache.spark.TaskContext;

import org.apache.spark.api.java.*;

import org.apache.spark.api.java.function.*;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.*;

import org.apache.spark.streaming.kafka010.*;

import org.apache.commons.lang3.StringUtils;

import org.apache.kafka.clients.consumer.ConsumerRecord;

import org.apache.kafka.common.TopicPartition;

import org.apache.kafka.common.serialization.StringDeserializer;

import org.apache.spark.api.java.Optional;

import scala.Tuple2;

public class Test5 {

	public static void main(String[] args) throws InterruptedException {

		// 接收数据的地址和端口

		final JavaPairRDD<String, Integer>[] lastRdd = new JavaPairRDD[1];

		SparkConf conf = new SparkConf().setMaster("local").setAppName(

				"streamingTest");

		JavaSparkContext sc = new JavaSparkContext(conf);

		sc.setLogLevel("ERROR");

		sc.setCheckpointDir("./checkpoint");

		JavaStreamingContext ssc = new JavaStreamingContext(sc,

				Durations.seconds(10));

		// kafka相关参数，必要！缺了会报错

		Map<String, Object> kafkaParams = new HashMap<>();

		kafkaParams.put("bootstrap.servers", "192.168.174.200:9092");

		kafkaParams.put("key.deserializer", StringDeserializer.class);

		kafkaParams.put("value.deserializer", StringDeserializer.class);

		kafkaParams.put("group.id", "newgroup2");

		kafkaParams.put("auto.offset.reset", "latest");

		kafkaParams.put("enable.auto.commit", false);

		Collection<String> topics = Arrays.asList("test");

		JavaInputDStream<ConsumerRecord<String, String>> stream = KafkaUtils

				.createDirectStream(ssc, LocationStrategies.PreferConsistent(),

						ConsumerStrategies.<String, String> Subscribe(topics,

								kafkaParams));

		// 注意这边的stream里的参数本身是个ConsumerRecord对象

		JavaPairDStream<String, Integer> counts = stream

				.flatMap(

						x -> Arrays.asList(x.value().toString().split(" "))

								.iterator())

				.mapToPair(x -> new Tuple2<String, Integer>(x, 1))

				.reduceByKey((x, y) -> x + y);

		//counts.print();

		JavaPairDStream<String, Integer> result = counts

				.updateStateByKey(new Function2<List<Integer>, Optional<Integer>, Optional<Integer>>() {

					private static final long serialVersionUID = 1L;

					@Override

					public Optional<Integer> call(List<Integer> values,

							Optional<Integer> state) throws Exception {

						/**

						 * values:经过分组最后 这个key所对应的value，如：[1,1,1,1,1]

						 * state:这个key在本次之前之前的状态

						 */

						Integer updateValue = 0;

						if (state.isPresent()) {

							updateValue = state.get();

						}

						for (Integer value : values) {

							updateValue += value;

						}

						return Optional.of(updateValue);

					}

				});

		result.print();

		ssc.start();

		ssc.awaitTermination();

		ssc.close();

	}

}

Spark集成Kafka实时流计算Java案例的更多相关文章

基于Spark机器学习和实时流计算的智能推荐系统
概要: 随着电子商务的高速发展和普及应用,个性化推荐的推荐系统已成为一个重要研究领域. 个性化推荐算法是推荐系统中最核心的技术,在很大程度上决定了电子商务推荐系统性能的优劣,决定着是否能够推荐用户真正 ...
.Spark Streaming（上）--实时流计算Spark Streaming原理介
Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍 http://www.cnblogs.com/shishanyuan/p/474 ...
用Spark进行实时流计算
Spark Streaming VS Structured Streaming Spark Streaming是Spark最初的流处理框架,使用了微批的形式来进行流处理. 提供了基于RDDs的Dstr ...
Storm概念学习系列之什么是实时流计算？
不多说,直接上干货! 什么是实时流计算? 1.实时流计算背景 2.实时计算应用场景 3.实时计算处理流程 4.实时计算框架什么是实时流计算? 所谓实时流计算,就是近几年由于数据得到广泛应用之后 ...
Storm分布式实时流计算框架相关技术总结
Storm分布式实时流计算框架相关技术总结 Storm作为一个开源的分布式实时流计算框架,其内部实现使用了一些常用的技术,这里是对这些技术及其在Storm中作用的概括介绍.以此为基础,后续再深入了解S ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
实时流计算Spark Streaming原理介绍
1.Spark Streaming简介 1.1 概述 Spark Streaming 是Spark核心API的一个扩展,可以实现高吞吐量的.具备容错机制的实时流数据的处理.支持从多种数据源获取数据,包 ...
kafka实时流数据架构
初识kafka https://www.cnblogs.com/wenBlog/p/9550039.html 简介 Kafka经常用于实时流数据架构,用于提供实时分析.本篇将会简单介绍kafka以及它 ...
实时流计算、Spark Streaming、Kafka、Redis、Exactly-once、实时去重
http://lxw1234.com/archives/2018/02/901.htm

随机推荐

(容量超大)or(容量及价值)超大背包问题 ( 折半枚举 || 改变 dp 意义 )
题意 : 以下两个问题的物品都只能取有且只有一次 ① 给你 N 个物品,所有物品的价值总和不会超过 5000, 单个物品的价格就可达 10^10 ,背包容量为 B ② 给你 N (N ≤ 40 ) 个 ...
倍增O(1)求区间&值与|值
;i<=n;++i) f[i][]=a[i],g[i][]=a[i]; ;(<<j)<=n;++j) ;(i+(<<j)-)<=n;i++) { f[i][j ...
【PowerOJ1741&网络流24题】最长递增子序列问题（最大流）
题意: 思路: [问题分析] 第一问时LIS,动态规划求解,第二问和第三问用网络最大流解决. [建模方法] 首先动态规划求出F[i],表示以第i位为开头的最长上升序列的长度,求出最长上升序列长度K. ...
CF 696 A Lorenzo Von Matterhorn（二叉树，map）
原题链接:http://codeforces.com/contest/696/problem/A 原题描述: Lorenzo Von Matterhorn Barney lives in NYC. ...
Android ListView焦点事件冲突问题与解决
Android ListView对于单纯列表展示是很好用的,但是一旦牵扯到对listView进行操作就会遇到各种各样的问题.比如保存Checkbox状态与item复用的冲突.遇到可获取焦点的控件比如说 ...
TimeUtils
public class TimeUtils { public static final int YEAR = 0; public static final int MONTH = 1; public ...
Vue实现音乐播放器（二）-Vue-cli脚手架安装
三种方式创建bean对象在springIOC容器中初始化、销毁阶段要调用的自定义方法
1. 使用@Bean注解定义initMethod和destroyMethod 所谓initMethod和destroyMethod,是指在springIOC容器中,对于bean对象执行到初始化阶段和销 ...
Delphi 跨单元进入(访问)类的私有成员，protected ,private部分
http://blog.sina.com.cn/s/blog_5f8861b60102v1nl.html Delphi 跨单元进入(访问)类的私有成员,protected ,private部分 (20 ...
Learn Python the hard way, ex42 物以类聚
依然少打很多剧情,并修改了很多,还好,能运行 #!urs/bin/python #coding:utf-8 from sys import exit from random import randin ...

Spark集成Kafka实时流计算Java案例

Spark集成Kafka实时流计算Java案例的更多相关文章

随机推荐

热门专题