59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例
一、top3热门商品实时统计案例
1、概述
Spark Streaming最强大的地方在于,可以与Spark Core、Spark SQL整合使用,之前已经通过transform、foreachRDD等算子看到,
如何将DStream中的RDD使用Spark Core执行批处理操作。现在就来看看,如何将DStream中的RDD与Spark SQL结合起来使用。 案例:每隔10秒,统计最近60秒的,每个种类的每个商品的点击次数,然后统计出每个种类top3热门的商品。
2、java案例
package cn.spark.study.streaming; import java.util.ArrayList;
import java.util.List; import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.RowFactory;
import org.apache.spark.sql.hive.HiveContext;
import org.apache.spark.sql.types.DataTypes;
import org.apache.spark.sql.types.StructField;
import org.apache.spark.sql.types.StructType;
import org.apache.spark.streaming.Durations;
import org.apache.spark.streaming.api.java.JavaPairDStream;
import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;
import org.apache.spark.streaming.api.java.JavaStreamingContext; import scala.Tuple2; /**
* 与Spark SQL整合使用,top3热门商品实时统计
* @author Administrator
*
*/
public class Top3HotProduct { public static void main(String[] args) {
SparkConf conf = new SparkConf()
.setMaster("local[2]")
.setAppName("Top3HotProduct");
JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1)); // 首先看一下,输入日志的格式
// leo iphone mobile_phone // 首先,获取输入数据流
// 这里顺带提一句,之前没有讲过,就是说,我们的Spark Streaming的案例为什么都是基于socket的呢?
// 因为方便啊。。。
// 其实,企业里面,真正最常用的,都是基于Kafka这种数据源
// 但是我觉得我们的练习,用socket也无妨,比较方便,而且一点也不影响学习
// 因为不同的输入来源的,不同之处,只是在创建输入DStream的那一点点代码
// 所以,核心是在于之后的Spark Streaming的实时计算
// 所以只要我们掌握了各个案例和功能的使用
// 在企业里,切换到Kafka,易如反掌,因为我们之前都详细讲过,而且实验过,实战编码过,将Kafka作为
// 数据源的两种方式了 // 获取输入数据流
JavaReceiverInputDStream<String> productClickLogsDStream = jssc.socketTextStream("spark1", 9999); // 然后,应该是做一个映射,将每个种类的每个商品,映射为(category_product, 1)的这种格式
// 从而在后面可以使用window操作,对窗口中的这种格式的数据,进行reduceByKey操作
// 从而统计出来,一个窗口中的每个种类的每个商品的,点击次数
JavaPairDStream<String, Integer> categoryProductPairsDStream = productClickLogsDStream
.mapToPair(new PairFunction<String, String, Integer>() { private static final long serialVersionUID = 1L; @Override
public Tuple2<String, Integer> call(String productClickLog)
throws Exception {
String[] productClickLogSplited = productClickLog.split(" ");
return new Tuple2<String, Integer>(productClickLogSplited[2] + "_" +
productClickLogSplited[1], 1);
} }); // 然后执行window操作
// 到这里,就可以做到,每隔10秒钟,对最近60秒的数据,执行reduceByKey操作
// 计算出来这60秒内,每个种类的每个商品的点击次数
JavaPairDStream<String, Integer> categoryProductCountsDStream =
categoryProductPairsDStream.reduceByKeyAndWindow( new Function2<Integer, Integer, Integer>() { private static final long serialVersionUID = 1L; @Override
public Integer call(Integer v1, Integer v2) throws Exception {
return v1 + v2;
} }, Durations.seconds(60), Durations.seconds(10)); // 然后针对60秒内的每个种类的每个商品的点击次数
// foreachRDD,在内部,使用Spark SQL执行top3热门商品的统计
categoryProductCountsDStream.foreachRDD(new Function<JavaPairRDD<String,Integer>, Void>() { private static final long serialVersionUID = 1L; @Override
public Void call(JavaPairRDD<String, Integer> categoryProductCountsRDD) throws Exception {
// 将该RDD,转换为JavaRDD<Row>的格式
JavaRDD<Row> categoryProductCountRowRDD = categoryProductCountsRDD.map( new Function<Tuple2<String,Integer>, Row>() { private static final long serialVersionUID = 1L; @Override
public Row call(Tuple2<String, Integer> categoryProductCount)
throws Exception {
String category = categoryProductCount._1.split("_")[0];
String product = categoryProductCount._1.split("_")[1];
Integer count = categoryProductCount._2;
return RowFactory.create(category, product, count);
} }); // 然后,执行DataFrame转换
List<StructField> structFields = new ArrayList<StructField>();
structFields.add(DataTypes.createStructField("category", DataTypes.StringType, true));
structFields.add(DataTypes.createStructField("product", DataTypes.StringType, true));
structFields.add(DataTypes.createStructField("click_count", DataTypes.IntegerType, true));
StructType structType = DataTypes.createStructType(structFields); HiveContext hiveContext = new HiveContext(categoryProductCountsRDD.context()); DataFrame categoryProductCountDF = hiveContext.createDataFrame(
categoryProductCountRowRDD, structType); // 将60秒内的每个种类的每个商品的点击次数的数据,注册为一个临时表
categoryProductCountDF.registerTempTable("product_click_log"); // 执行SQL语句,针对临时表,统计出来每个种类下,点击次数排名前3的热门商品
DataFrame top3ProductDF = hiveContext.sql(
"SELECT category,product,click_count "
+ "FROM ("
+ "SELECT "
+ "category,"
+ "product,"
+ "click_count,"
+ "row_number() OVER (PARTITION BY category ORDER BY click_count DESC) rank "
+ "FROM product_click_log"
+ ") tmp "
+ "WHERE rank<=3"); // 这里说明一下,其实在企业场景中,可以不是打印的
// 案例说,应该将数据保存到redis缓存、或者是mysql db中
// 然后,应该配合一个J2EE系统,进行数据的展示和查询、图形报表 top3ProductDF.show(); return null;
} }); jssc.start();
jssc.awaitTermination();
jssc.close();
} }
3、scala案例
package cn.spark.study.streaming import org.apache.spark.SparkConf
import org.apache.spark.streaming.StreamingContext
import org.apache.spark.streaming.Seconds
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.IntegerType
import org.apache.spark.sql.hive.HiveContext /**
* @author Administrator
*/
object Top3HotProduct { def main(args: Array[String]): Unit = {
val conf = new SparkConf()
.setMaster("local[2]")
.setAppName("Top3HotProduct")
val ssc = new StreamingContext(conf, Seconds(1)) val productClickLogsDStream = ssc.socketTextStream("spark1", 9999)
val categoryProductPairsDStream = productClickLogsDStream
.map { productClickLog => (productClickLog.split(" ")(2) + "_" + productClickLog.split(" ")(1), 1)}
val categoryProductCountsDStream = categoryProductPairsDStream.reduceByKeyAndWindow(
(v1: Int, v2: Int) => v1 + v2,
Seconds(60),
Seconds(10)) categoryProductCountsDStream.foreachRDD(categoryProductCountsRDD => {
val categoryProductCountRowRDD = categoryProductCountsRDD.map(tuple => {
val category = tuple._1.split("_")(0)
val product = tuple._1.split("_")(1)
val count = tuple._2
Row(category, product, count)
}) val structType = StructType(Array(
StructField("category", StringType, true),
StructField("product", StringType, true),
StructField("click_count", IntegerType, true))) val hiveContext = new HiveContext(categoryProductCountsRDD.context) val categoryProductCountDF = hiveContext.createDataFrame(categoryProductCountRowRDD, structType) categoryProductCountDF.registerTempTable("product_click_log") val top3ProductDF = hiveContext.sql(
"SELECT category,product,click_count "
+ "FROM ("
+ "SELECT "
+ "category,"
+ "product,"
+ "click_count,"
+ "row_number() OVER (PARTITION BY category ORDER BY click_count DESC) rank "
+ "FROM product_click_log"
+ ") tmp "
+ "WHERE rank<=3") top3ProductDF.show()
}) ssc.start()
ssc.awaitTermination()
} }
59、Spark Streaming与Spark SQL结合使用之top3热门商品实时统计案例的更多相关文章
- Spark2.2(三十三):Spark Streaming和Spark Structured Streaming更新broadcast总结(一)
背景: 需要在spark2.2.0更新broadcast中的内容,网上也搜索了不少文章,都在讲解spark streaming中如何更新,但没有spark structured streaming更新 ...
- Spark2.3(四十二):Spark Streaming和Spark Structured Streaming更新broadcast总结(二)
本次此时是在SPARK2,3 structured streaming下测试,不过这种方案,在spark2.2 structured streaming下应该也可行(请自行测试).以下是我测试结果: ...
- 48、Spark SQL之与Spark Core整合之每日top3热点搜索词统计案例实战
一.概述 1.需求分析 数据格式: 日期 用户 搜索词 城市 平台 版本 需求: 1.筛选出符合查询条件(城市.平台.版本)的数据 2.统计出每天搜索uv排名前3的搜索词 3.按照每天的top3搜索词 ...
- 小记---------spark组件与其他组件的比较 spark/mapreduce ;spark sql/hive ; spark streaming/storm
Spark与Hadoop的对比 Scala是Spark的主要编程语言,但Spark还支持Java.Python.R作为编程语言 Hadoop的编程语言是Java
- 基于案例贯通 Spark Streaming 流计算框架的运行源码
本期内容 : Spark Streaming+Spark SQL案例展示 基于案例贯穿Spark Streaming的运行源码 一. 案例代码阐述 : 在线动态计算电商中不同类别中最热门的商品排名,例 ...
- 通过案例对 spark streaming 透彻理解三板斧之一: spark streaming 另类实验
本期内容 : spark streaming另类在线实验 瞬间理解spark streaming本质 一. 我们最开始将从Spark Streaming入手 为何从Spark Streaming切入 ...
- spark streaming 实战
最近在学习spark的相关知识, 重点在看spark streaming 和spark mllib相关的内容. 关于spark的配置: http://www.powerxing.com/spark-q ...
- 9.Spark Streaming
Spark Streaming 1 Why Apache Spark 2 关于Apache Spark 3 如何安装Apache Spark 4 Apache Spark的工作原理 5 spark弹性 ...
- Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
Spark Streaming 编程指南 概述 一个入门示例 基础概念 依赖 初始化 StreamingContext Discretized Streams (DStreams)(离散化流) Inp ...
随机推荐
- .net Dapper 学习系列(2) ---Dapper进阶
目录 写在前面 前期准备 Dapper 单表批量添加 在Dapper 多表查询 在Dapper 调用存储过程 在Dapper 使用QueryMultiple进行多表查询 在Dapper 使用事务进行多 ...
- Win8.1下Flash Builder 提示: 找不到所需的Adobe Flash Player调试器版本,解决办法
系统:Win8.1 x64 [解决]安装Flash DeBug最新版本补丁,注意下载对应系统的调试版本 下载地址:http://www.adobe.com/support/flashplayer/do ...
- MVC运行机制[转]
原:http://www.cnblogs.com/jyan/archive/2012/06/29/2569566.html#3122335 ASP.NET是一种建立动态Web应用程序的技术.它是.NE ...
- 2019 讯飞java面试笔试题 (含面试题解析)
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.讯飞等公司offer,岗位是Java后端开发,因为发展原因最终选择去了讯飞,入职一年时间了,也成为了面试官,之 ...
- Content Security Policy (CSP)内容安全策略
CSP简介 Content Security Policy(CSP),内容(网页)安全策略,为了缓解潜在的跨站脚本问题(XSS攻击),浏览器的扩展程序系统引入了内容安全策略(CSP)这个概念. CSP ...
- WinRAR捆绑木马
准备好木马文件 server.exe 准备一个小游戏 趣味数学计算 压缩 创建自解压格式压缩文件 自解压选项设置 解压路径设置 设置程序 模式设置 压缩完成 使用 开始玩游戏
- 一个工作13年的SAP开发人员的回忆:电子科技大学2000级新生入学指南
让我们跟着Jerry的文章,一起回到本世纪初那个单纯美好的年代. 2000年9月,Jerry告别了自己的高中时代,进入到自己心目中的电子游戏大学,开始了四年的本科生活.每个新生,都拿到了这样一本薄薄的 ...
- Java集合框架 面试问题整理
简介 java集合类是java.util 包中的重要内容.java集合框架包含了大量集合接口以及这些接口的实现类和操作他们的算法. java集合框架图 主要提供的数据结构 List 又称有序的Coll ...
- gitlab中clone项目时,IP地址是一串数字
问题:docker安装后,clone显示ip是一串地址 解决(如果是非docker启动的,自然就是进入gitlab下): 1.进入docker 后台: docker exec -it gitlab / ...
- Centos7搭建DockerRegistry
1. 说明 以下使用系统centos7,64位,镜像为CentOS-7-x86_64-Minimal-1804,均已root用户进行操作 2. 安装Registry Docker Registry 是 ...