Flink使用二次聚合实现TopN计算

一、背景说明：

有需求需要对数据进行统计，要求每隔5分钟输出最近1小时内点击量最多的前N个商品，数据格式预览如下：

543462,1715,1464116,pv,1511658000

662867,2244074,1575622,pv,1511658000

561558,3611281,965809,pv,1511658000

894923,3076029,1879194,pv,1511658000

834377,4541270,3738615,pv,1511658000

315321,942195,4339722,pv,1511658000

625915,1162383,570735,pv,1511658000

578814,176722,982926,pv,1511658000

....

最后统计输出结果如下：

==============2017-11-26 09:05:00.0==============

Top1 ItemId:5051027 Counts:3

Top2 ItemId:3493253 Counts:3

Top3 ItemId:4261030 Counts:3

Top4 ItemId:4894670 Counts:2

Top5 ItemId:3781391 Counts:2

==============2017-11-26 09:05:00.0==============

==============2017-11-26 09:10:00.0==============

Top1 ItemId:812879 Counts:5

Top2 ItemId:2600165 Counts:4

Top3 ItemId:2828948 Counts:4

Top4 ItemId:2338453 Counts:4

Top5 ItemId:4261030 Counts:4

==============2017-11-26 09:10:00.0==============

二、实现过程

实现思路：

①建立环境，设置并行度及CK。

②定义watermark策略及事件时间，获取数据并对应到JavaBean，筛选pv数据。

③第一次聚合，按商品id分组开窗聚合,使用aggregate算子进行增量计算。

④第二次聚合，按窗口聚合，使用ListState存放数据，并定义定时器，在watermark达到后1秒触发，对窗口数据排序输出。

⑤打印结果及执行。
代码细节说明：

2.1 、第一次聚合代码：

//第一次聚合

SingleOutputStreamOperator<ItemCount> aggregateDS = userBehaviorDS

		.map(new MapFunction<UserBehavior, Tuple2<Long, Integer>>() {

			@Override

			public Tuple2<Long, Integer> map(UserBehavior value) throws Exception {

				return new Tuple2<>(value.getItemId(), 1);

			}})

		.keyBy(data -> data.f0)

		.window(SlidingEventTimeWindows.of(Time.hours(1), Time.minutes(5)))

		.aggregate(new ItemCountAggFunc(), new ItemCountWindowFunc());

①第一次聚合这里将商品id进行提取并转换为Tuple2<id,1>的格式，再对id进行keyby后聚合，避免直接使用对应的JavaBean进行分组聚合提高效率：

②这里使用aggregate算子进行增量计算，Flink的window function来负责一旦窗口关闭, 去计算处理窗口中的每个元素。window function 是如下三种：

ReduceFunction （增量聚合函数）输入及输出类型得一致
AggregateFunction（增量聚合函数）输入及输出类型可以不一致
ProcessWindowFunction（全窗口函数）

ReduceFunction,AggregateFunction更加高效, 原因就是Flink可以对到来的元素进行增量聚合 .

ProcessWindowFunction 可以得到一个包含这个窗口中所有元素的迭代器, 以及这些元素所属窗口的一些元数据信息.

ProcessWindowFunction不能被高效执行的原因是Flink在执行这个函数之前, 需要在内部缓存这个窗口上所有的元素

2.2、重写AggregateFunction函数代码

public static class ItemCountAggFunc implements AggregateFunction<Tuple2<Long,Integer>,Integer,Integer>{

	@Override

	public Integer createAccumulator() { return 0; }

	@Override

	public Integer add(Tuple2<Long, Integer> value, Integer accumulator) { return accumulator+1; }

	@Override

	public Integer getResult(Integer accumulator) { return accumulator; }

	@Override

	public Integer merge(Integer a, Integer b) { return a+b; }

}

这里对AggregateFunction函数里面四个方法进行重写自定义计数规则，入参<IN,ACC,OUT>对应为Tuple2，累加器用Integer过度，输出结果为Integer。

createAccumulator

这个方法首先要创建一个累加器，要进行一些初始化的工作，这里初始值为0.
add

add方法就是做聚合的时候的核心逻辑，这里这是对tuple的第二位整数进行累加。
merge

Flink是一个分布式计算框架，可能计算是分布在很多节点上同时进行的，如果计算在多个节点进行，需要对结果进行合并，这个merge方法就是做这个工作的，所以入参和出参的类型都是中间结果类型ACC。
getResult

这个方法就是将每个用户最后聚合的结果经过处理之后，按照OUT的类型返回，返回的结果也就是聚合函数的输出结果了。

这里也是AggregateFunction和ReduceFunction区别的地方，reduce的input为Tuple2，则output也必须是Tuple2。

三、完整代码

这里处理的是顺序数据，如果是乱序数据，在窗口触发计算后迟到数据统计会有问题，优化思路为在窗口关闭后再触发键控状态的清除，及使用MapState来避免同个产品Id多个结果的问题。

package com.test.topN;

import bean.ItemCount;

import bean.UserBehavior;

import org.apache.commons.compress.utils.Lists;

import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;

import org.apache.flink.api.common.eventtime.WatermarkStrategy;

import org.apache.flink.api.common.functions.AggregateFunction;

import org.apache.flink.api.common.functions.MapFunction;

import org.apache.flink.api.common.state.ListState;

import org.apache.flink.api.common.state.ListStateDescriptor;

import org.apache.flink.api.java.tuple.Tuple2;

import org.apache.flink.configuration.Configuration;

import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;

import org.apache.flink.streaming.api.functions.KeyedProcessFunction;

import org.apache.flink.streaming.api.functions.windowing.WindowFunction;

import org.apache.flink.streaming.api.windowing.assigners.SlidingEventTimeWindows;

import org.apache.flink.streaming.api.windowing.time.Time;

import org.apache.flink.streaming.api.windowing.windows.TimeWindow;

import org.apache.flink.util.Collector;

import java.sql.Timestamp;

import java.text.SimpleDateFormat;

import java.time.Duration;

import java.util.ArrayList;

import java.util.Iterator;

/**

 * @author: Rango

 * @create: 2021-05-24 10:37

 * @description: 每隔5分钟输出最近1小时内点击量最多的前N个商品

 **/

public class ProductTopN {

    public static void main(String[] args) throws Exception {

        //1.建立环境

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment().setParallelism(1);

        //2.设置watermark及定义事件时间，从socket获取数据并对应到JavaBean,筛选只取pv数据

        WatermarkStrategy<UserBehavior> wms = WatermarkStrategy

                .<UserBehavior>forBoundedOutOfOrderness(Duration.ofSeconds(1))

                .withTimestampAssigner(new SerializableTimestampAssigner<UserBehavior>() {

                    @Override

                    public long extractTimestamp(UserBehavior element, long recordTimestamp) {

                        return element.getTimestamp() * 1000L;

                    }

                });

        SingleOutputStreamOperator<UserBehavior> userBehaviorDS = env

                //.socketTextStream("hadoop102", 9999)

                .readTextFile("input/UserBehavior.csv")

                .map(new MapFunction<String, UserBehavior>() {

                    @Override

                    public UserBehavior map(String value) throws Exception {

                        String[] split = value.split(",");

                        return new UserBehavior(Long.parseLong(split[0]),

                                Long.parseLong(split[1]),

                                Integer.parseInt(split[2]),

                                split[3],

                                Long.parseLong(split[4]));

                    }

                })

                .filter(data -> "pv".equals(data.getBehavior()))

                .assignTimestampsAndWatermarks(wms);

        //3.第一次聚合，按商品id分组开窗聚合,使用aggregate进行增量计算,将商品id用tuple2抽离出来提高效率

        SingleOutputStreamOperator<ItemCount> aggregateDS = userBehaviorDS

                .map(new MapFunction<UserBehavior, Tuple2<Long, Integer>>() {

                    @Override

                    public Tuple2<Long, Integer> map(UserBehavior value) throws Exception {

                        return new Tuple2<>(value.getItemId(), 1);

                    }})

                .keyBy(data -> data.f0)

                .window(SlidingEventTimeWindows.of(Time.hours(1), Time.minutes(5)))

                .aggregate(new ItemCountAggFunc(), new ItemCountWindowFunc());

        //4.第二次聚合，按窗口聚合，基于状态编程实现窗口内有序

        SingleOutputStreamOperator<String> processDS = aggregateDS.keyBy(ItemCount::getTime)

                .process(new ItemCountProcessFunc(5));

        //5.打印结果并执行

        processDS.print();

        env.execute();

    }

    public static class ItemCountAggFunc implements AggregateFunction<Tuple2<Long,Integer>,Integer,Integer>{

        @Override

        public Integer createAccumulator() { return 0; }

        @Override

        public Integer add(Tuple2<Long, Integer> value, Integer accumulator) { return accumulator+1; }

        @Override

        public Integer getResult(Integer accumulator) { return accumulator; }

        @Override

        public Integer merge(Integer a, Integer b) { return a+b; }

    }

    public static class ItemCountWindowFunc implements WindowFunction<Integer, ItemCount,Long, TimeWindow>{

        @Override

        public void apply(Long key, TimeWindow window, Iterable<Integer> input, Collector<ItemCount> out) throws Exception {

            Integer next = input.iterator().next();

            out.collect(new ItemCount(key,new Timestamp(window.getEnd()).toString(),next));

        }

    }

    public static class ItemCountProcessFunc extends KeyedProcessFunction<String,ItemCount,String>{

        //定义构造器可以按入参取排名

        private Integer topN;

        public ItemCountProcessFunc(Integer topN) {

            this.topN = topN;

        }

        //使用liststatus并初始化

        private ListState <ItemCount>listState;

        @Override

        public void open(Configuration parameters) throws Exception {

            listState= getRuntimeContext()

                    .getListState(new ListStateDescriptor<ItemCount>("list-state",ItemCount.class));

        }

        //定时器

        @Override

        public void processElement(ItemCount value, Context ctx, Collector<String> out) throws Exception {

            listState.add(value);

            SimpleDateFormat sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss");

            ctx.timerService().registerEventTimeTimer(sdf.parse(value.getTime()).getTime()+1000L);

        }

        @Override

        public void onTimer(long timestamp, OnTimerContext ctx, Collector<String> out) throws Exception {

            //1.获取状态的数据并转为List

            Iterator<ItemCount> iterator = listState.get().iterator();

            ArrayList<ItemCount> itemCounts = Lists.newArrayList(iterator);

            //2.排序

            itemCounts.sort(((o1, o2) -> o2.getCount() - o1.getCount()));

            //3.获取前n

            StringBuilder sb = new StringBuilder();

            sb.append("==============")

                    .append(new Timestamp(timestamp - 1000L))

                    .append("==============")

                    .append("\n");

            for (int i = 0; i < Math.min(topN,itemCounts.size()); i++) {

                ItemCount itemCount = itemCounts.get(i);

                sb.append("Top").append(i+1);

                sb.append(" ItemId:").append(itemCount.getItem());

                sb.append(" Counts:").append(itemCount.getCount());

                sb.append("\n");

            }

            sb.append("==============")

                    .append(new Timestamp(timestamp - 1000L))

                    .append("==============")

                    .append("\n")

                    .append("\n");

            listState.clear();

            out.collect(sb.toString());

            Thread.sleep(200);//方便查看结果时间休眠

        }}}

学习交流，有任何问题还请随时评论指出交流。

Flink使用二次聚合实现TopN计算的更多相关文章

Flink使用二次聚合实现TopN计算-乱序数据
一.背景说明: 在上篇文章实现了TopN计算,但是碰到迟到数据则会无法在当前窗口计算,需要对其中的键控状态优化 Flink使用二次聚合实现TopN计算本次需求是对数据进行统计,要求每隔5秒,输出最近 ...
ElasticSearch7.3学习(二十七)----聚合概念（bucket和metric）及其示例
一.两个核心概念:bucket和metric 1.1 bucket 有如下数据 city name 北京张三北京李四天津王五天津赵六天津王麻子划分出来两个bucket,一个是北 ...
MySQL聚合函数在计算时，不会自动匹配与之相对应的数据
学习mysql过程中遇到了一个困惑,纠结了我半天时间,刚刚又重新复习了一下,终于知道问题所在以下是一个需求: 取得平均薪水最高的部门的部门编号代码如下: select deptno, avg(sa ...
iNeuOS工业互联平台，聚合和变化率计算、设备IO和通讯状态、组态快捷键、创建文件夹、选择应用图标等，发布：v3.6版本
目录 1. 概述... 2 2. 平台演示... 2 3. 聚合和变化率计算... 2 4. 设备IO和通讯状态监测... 3 5. 组 ...
Apache Flink 为什么能够成为新一代大数据计算引擎？
众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速 ...
kafka传数据到Flink存储到mysql之Flink使用SQL语句聚合数据流（设置时间窗口，EventTime）
网上没什么资料,就分享下:) 简单模式:kafka传数据到Flink存储到mysql 可以参考网站: 利用Flink stream从kafka中写数据到mysql maven依赖情况: <pro ...
大数据笔记（二十二）——大数据实时计算框架Storm
一. 1.对比:离线计算和实时计算离线计算:MapReduce,批量处理(Sqoop-->HDFS--> MR ---> HDFS) 实时计算:Storm和Spark Sparki ...
Flink笔记(二) DataStream Operator(数据流操作)
DataStream Source 基于文件 readTextFile(path) 读取 text 文件的数据 readFile(fileInputFormat, path) 通过自定义的读取方式, ...
sql server聚合函数sum计算出来为空,怎样返回0
通常我们计算数据库中表的数据有几个常用的聚合函数 1.count : 计数 2.sum: 计算总和 3.avg: 取平均值 4.max: 取最大值 5.min: 取最小值 6.isnull: 当返回数 ...

随机推荐

Docker的深入浅出
定义: Docker是一个虚拟环境容器,可以将你的开发环境.代码.配置文件等一并打包到这个容器中,并发布和应用到任意平台中. 原理: docker底层使用了LXC来实现,LXC将linux进程沙盒化, ...
有了CMDB，为什么还需要应用配置管理？
有了CMDB,为什么还需要应用配置管理? 你不妨先停下来,思考一下这个问题. 我抛出的观点是: CMDB是面向资源的管理,应用配置是面向应用的管理. 请注意,这里是面向"资源",不 ...
Elasticsearch 主节点和暖热节点解析
Elasticsearch 主节点和暖热节点解析主节点控制整个集群,进行一些轻量级操作,列如:跟踪哪些节点是集群中的一部分,决定节点分片分配,负责集群健康, 不包含数据,也不参与搜索和索引操作,对 ...
HTTPS证书通过cert-manager自动获取，部署，续期
HTTP-01验证和DNS-01验证使用cert-manager给阿里云的DNS域名授权SSL证书第一步:安装cert-manager 配置 CRD kubectl apply -f https: ...
hello world！goodbye world~
我有个朋友,做ios开发做了5年,年前回家转行赚大钱去了,这个标题,其实就是因他而生. 我本人做的.net开发,也差不多快5年时间了,在这个时候暂借博客园这个平台说几句心里话,骚了勿喷:) 其实我是个 ...
Spring Security OAuth2 实现登录互踢
背景说明一个账号只能一处登录,类似的业务需求在现有后管类系统是非常常见的. 但在原有的 spring security oauth2 令牌方法流程(所谓的登录)无法满足类似的需求. 我们先来看 To ...
baystack(ret2one_gadget)
babystack 首先检查一下保护全保护开启,我们IDA分析一下. main函数很简单,首先第一个read明显存在漏洞,如果不是以 \n 结尾会存在栈中地址的泄漏. payload = 'A'*0 ...
【笔记】《Redis设计与实现》chapter21 排序
chapter21 排序 21.1 SORT<key> 命令的实现 // 用于保存被排序值及其权重的结构 typedef struct _redisSortObject { // 被排序键 ...
Day01_08_变量(Variable)
变量什么是变量? *变量本质上来说是内存上的一块空间,这块空间有数据类型,有名字,有字面值(数据).变量是内存中存储数据最基本的单元 * 变量要求变量中存储的具体数据必须和变量的数据类型一致,必须先 ...
四两拨千斤——你不知道的VScode编码TypeScript的技巧
转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 原文参考:https://blog.bitsrc 如果你体验过JAVA这种强类型语言带来的便利,包括其丰富的 ...