aggregator

------------------

聚合动作;聚合操作可以是基于batch、stream、partiton

[聚合方式-分区聚合]

partitionAggregate

  分区聚合;基于分区进行聚合运算;作用于分区而不是batch。

  mystream.partitionAggregate(new Fields("x"), new Count(), new Fields("count"));

[聚合方式-batch聚合]

aggregate

  批次聚合;先将同一batch的所有分区的tuple进行global再分区,将其汇集到一个分区中,再进行聚合运算。

  .aggregate(new Fields("a"), new Count(), new Fields("count"));   // 批次聚合

  聚合函数

    [ReducerAggregator]

      init();

      reduce();

    Aggregator

    CombinerAggregator

import org.apache.storm.trident.operation.ReducerAggregator;
import org.apache.storm.trident.tuple.TridentTuple; /**
* 自定义sum聚合函数
*/
public class SumReducerAggregator implements ReducerAggregator<Integer> { private static final long serialVersionUID = 1L; @Override
public Integer init() {
return 0;
} @Override
public Integer reduce(Integer curr, TridentTuple tuple) {
return curr + tuple.getInteger(0) + tuple.getInteger(1);
} }

分区聚合

import net.baiqu.shop.report.trident.demo01.PrintFunction;
import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.trident.Stream;
import org.apache.storm.trident.TridentTopology;
import org.apache.storm.trident.testing.FixedBatchSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Values; public class TridentTopologyApp4 { public static void main(String[] args) {
// 创建topology
TridentTopology topology = new TridentTopology(); // 创建spout
FixedBatchSpout testSpout = new FixedBatchSpout(new Fields("a", "b"), 4,
new Values(1, 2),
new Values(2, 3),
new Values(3, 4),
new Values(4, 5)); // 创建流
Stream stream = topology.newStream("testSpout", testSpout);
stream.partitionAggregate(new Fields("a", "b"), new SumReducerAggregator(), new Fields("sum"))
.shuffle().each(new Fields("sum"), new PrintFunction(), new Fields("result")); // 本地提交
LocalCluster cluster = new LocalCluster();
cluster.submitTopology("TridentDemo4", new Config(), topology.build());
} }

[ReducerAggregator]

  init();

  reduce();

  public interface ReducerAggregator<T> extends Serializable {

    T init();

    T reduce(T curr, TridentTuple tuple);

  }

[Aggregator]

  描述同ReducerAggregator.

  public interface Aggregator<T> extends Operation {

    // 开始聚合之间调用,主要用于保存状态。共下面的两个方法使用   

    T init(Object batchId, TridentCollector collector);

    // 迭代batch的每个tuple, 处理每个tuple后更新state的状态。

    void aggreate(T val, TridentTuple tuple, TridentCollector collector);

    // 所有tuple处理完成后调用,返回单个tuple给每个batch。

    void complete(T val, TridentCollector collector);

  }

CombinerAggregator

import org.apache.storm.trident.operation.BaseAggregator;
import org.apache.storm.trident.operation.TridentCollector;
import org.apache.storm.trident.tuple.TridentTuple;
import org.apache.storm.tuple.Values; import java.io.Serializable; /**
* 批次求和函数
*/
public class SumAggregator extends BaseAggregator<SumAggregator.State> { private static final long serialVersionUID = 1L; static class State implements Serializable {
private static final long serialVersionUID = 1L;
int sum = 0;
} @Override
public SumAggregator.State init(Object batchId, TridentCollector collector) {
return new State();
} @Override
public void aggregate(SumAggregator.State state, TridentTuple tuple, TridentCollector collector) {
state.sum = state.sum + tuple.getInteger(0) + tuple.getInteger(1);
} @Override
public void complete(SumAggregator.State state, TridentCollector collector) {
collector.emit(new Values(state.sum));
} }

批次聚合

package net.baiqu.shop.report.trident.demo04;

import net.baiqu.shop.report.trident.demo01.PrintFunction;
import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.trident.Stream;
import org.apache.storm.trident.TridentTopology;
import org.apache.storm.trident.testing.FixedBatchSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Values; public class TridentTopologyApp4 { public static void main(String[] args) {
// 创建topology
TridentTopology topology = new TridentTopology(); // 创建spout
FixedBatchSpout testSpout = new FixedBatchSpout(new Fields("a", "b"), 4,
new Values(1, 2),
new Values(2, 3),
new Values(3, 4),
new Values(4, 5)); // 创建流
Stream stream = topology.newStream("testSpout", testSpout);
stream.aggregate(new Fields("a", "b"), new SumAggregator(), new Fields("sum"))
.shuffle().each(new Fields("sum"), new PrintFunction(), new Fields("result")); // 本地提交
LocalCluster cluster = new LocalCluster();
cluster.submitTopology("TridentDemo4", new Config(), topology.build());
} }

运行结果

PrintFunction:
PrintFunction:
PrintFunction:
......

平均值批次聚合函数

import org.apache.storm.trident.operation.BaseAggregator;
import org.apache.storm.trident.operation.TridentCollector;
import org.apache.storm.trident.tuple.TridentTuple;
import org.apache.storm.tuple.Values; import java.io.Serializable; /**
* 批次求平均值函数
*/
public class AvgAggregator extends BaseAggregator<AvgAggregator.State> { private static final long serialVersionUID = 1L; static class State implements Serializable {
private static final long serialVersionUID = 1L;
// 元组值的总和
float sum = 0;
// 元组个数
int count = 0;
} /**
* 初始化状态
*/
@Override
public AvgAggregator.State init(Object batchId, TridentCollector collector) {
return new State();
} /**
* 在state变量中维护状态
*/
@Override
public void aggregate(AvgAggregator.State state, TridentTuple tuple, TridentCollector collector) {
state.count = state.count + 2;
state.sum = state.sum + tuple.getInteger(0) + tuple.getInteger(1);
} /**
* 处理完成所有元组之后,返回一个具有单个值的tuple
*/
@Override
public void complete(AvgAggregator.State state, TridentCollector collector) {
collector.emit(new Values(state.sum / state.count));
} }

批次聚合求平均值

import net.baiqu.shop.report.trident.demo01.PrintFunction;
import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.trident.Stream;
import org.apache.storm.trident.TridentTopology;
import org.apache.storm.trident.testing.FixedBatchSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Values; public class TridentTopologyApp4 { public static void main(String[] args) {
// 创建topology
TridentTopology topology = new TridentTopology(); // 创建spout
FixedBatchSpout testSpout = new FixedBatchSpout(new Fields("a", "b"), 4,
new Values(1, 2),
new Values(2, 3),
new Values(3, 4),
new Values(4, 5)); // 创建流
Stream stream = topology.newStream("testSpout", testSpout);
stream.aggregate(new Fields("a", "b"), new AvgAggregator(), new Fields("avg"))
.shuffle().each(new Fields("avg"), new PrintFunction(), new Fields("result")); // 本地提交
LocalCluster cluster = new LocalCluster();
cluster.submitTopology("TridentDemo4", new Config(), topology.build());
} }

[CombinerAggregator]

  在每个partition运行分区聚合,然后再进行global再分区将同一对batch的所有tuple分到一个partition中,最后再这一个partition中进行聚合运算,并产生结果进行输出。

  该种方式的网络流量占用少于前两种方式。

  public interface CombinerAggregator<T> extents Serializable {

    // 在每个tuple上运行,并接受字段值

    T init(TridentTuple tuple);

    // 合成tuple的值,并输出一个值的tuple

    T combine(T val1, T vak2);

    // 如果分区不含有tuple,调用该方法.

    T zero();

  }

合成聚合函数

import clojure.lang.Numbers;
import org.apache.storm.trident.operation.CombinerAggregator;
import org.apache.storm.trident.tuple.TridentTuple; /**
* 合成聚合函数
*/
public class SumCombinerAggregator implements CombinerAggregator<Number> { private static final long serialVersionUID = 1L; @Override
public Number init(TridentTuple tuple) {
return (Number) tuple.getValue(0);
} @Override
public Number combine(Number val1, Number val2) {
return Numbers.add(val1, val2);
} @Override
public Number zero() {
return 0;
} }

topology

import net.baiqu.shop.report.trident.demo01.PrintFunction;
import org.apache.storm.Config;
import org.apache.storm.LocalCluster;
import org.apache.storm.trident.Stream;
import org.apache.storm.trident.TridentTopology;
import org.apache.storm.trident.testing.FixedBatchSpout;
import org.apache.storm.tuple.Fields;
import org.apache.storm.tuple.Values; public class TridentTopologyApp4 { public static void main(String[] args) {
// 创建topology
TridentTopology topology = new TridentTopology(); // 创建spout
FixedBatchSpout testSpout = new FixedBatchSpout(new Fields("a", "b"), 4,
new Values(1, 2),
new Values(2, 3),
new Values(3, 4),
new Values(4, 5)); // 创建流
Stream stream = topology.newStream("testSpout", testSpout);
stream.aggregate(new Fields("a", "b"), new SumCombinerAggregator(), new Fields("sum"))
.shuffle().each(new Fields("sum"), new PrintFunction(), new Fields("result")); // 本地提交
LocalCluster cluster = new LocalCluster();
cluster.submitTopology("TridentDemo4", new Config(), topology.build());
} }

输出结果

PrintFunction:
PrintFunction:
PrintFunction:
......

Trident学习笔记(二)的更多相关文章

  1. WPF的Binding学习笔记(二)

    原文: http://www.cnblogs.com/pasoraku/archive/2012/10/25/2738428.htmlWPF的Binding学习笔记(二) 上次学了点点Binding的 ...

  2. AJax 学习笔记二(onreadystatechange的作用)

    AJax 学习笔记二(onreadystatechange的作用) 当发送一个请求后,客户端无法确定什么时候会完成这个请求,所以需要用事件机制来捕获请求的状态XMLHttpRequest对象提供了on ...

  3. [Firefly引擎][学习笔记二][已完结]卡牌游戏开发模型的设计

    源地址:http://bbs.9miao.com/thread-44603-1-1.html 在此补充一下Socket的验证机制:socket登陆验证.会采用session会话超时的机制做心跳接口验证 ...

  4. JMX学习笔记(二)-Notification

    Notification通知,也可理解为消息,有通知,必然有发送通知的广播,JMX这里采用了一种订阅的方式,类似于观察者模式,注册一个观察者到广播里,当有通知时,广播通过调用观察者,逐一通知. 这里写 ...

  5. java之jvm学习笔记二(类装载器的体系结构)

    java的class只在需要的时候才内转载入内存,并由java虚拟机的执行引擎来执行,而执行引擎从总的来说主要的执行方式分为四种, 第一种,一次性解释代码,也就是当字节码转载到内存后,每次需要都会重新 ...

  6. Java IO学习笔记二

    Java IO学习笔记二 流的概念 在程序中所有的数据都是以流的方式进行传输或保存的,程序需要数据的时候要使用输入流读取数据,而当程序需要将一些数据保存起来的时候,就要使用输出流完成. 程序中的输入输 ...

  7. 《SQL必知必会》学习笔记二)

    <SQL必知必会>学习笔记(二) 咱们接着上一篇的内容继续.这一篇主要回顾子查询,联合查询,复制表这三类内容. 上一部分基本上都是简单的Select查询,即从单个数据库表中检索数据的单条语 ...

  8. NumPy学习笔记 二

    NumPy学习笔记 二 <NumPy学习笔记>系列将记录学习NumPy过程中的动手笔记,前期的参考书是<Python数据分析基础教程 NumPy学习指南>第二版.<数学分 ...

  9. Learning ROS for Robotics Programming Second Edition学习笔记(二) indigo tools

    中文译著已经出版,详情请参考:http://blog.csdn.net/ZhangRelay/article/category/6506865 Learning ROS for Robotics Pr ...

  10. Redis学习笔记二 (BitMap算法分析与BitCount语法)

    Redis学习笔记二 一.BitMap是什么 就是通过一个bit位来表示某个元素对应的值或者状态,其中的key就是对应元素本身.我们知道8个bit可以组成一个Byte,所以bitmap本身会极大的节省 ...

随机推荐

  1. 数据仓库是什么?OLTP和OLAP是什么?

    数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented).集成的(Integrate).相对稳定的(Non-Volatile).反映历史变化(Time Varian ...

  2. 二叉查找树(c++)

    二叉查找数的操作: #include <iostream> using namespace std; typedef struct BitNode { int data; struct B ...

  3. windows 2008 R2-Zabbix server 3.0监控主机的加入

    一.关闭windows防火墙或者开通10050和10051端口 (1).关闭防火墙 开始—控制面板—windows防火墙 按照要求关闭防火墙 (2).开通端口 1.开始—管理工具--高级安全windo ...

  4. ASP.NET Core - 各项配置

    之前搭建好了各项开发环境,现在来说说ASP.NET Core的各项配置.项目结构.以及在请求管道中挂载的各式各样的中间件.今天先来探讨探讨其各项配置及其项目结构   ASP.NET Core和上一代F ...

  5. **611. Valid Triangle Number three pointer O(n^3) -> square(binary search larget number smaller than target)

    Given an array consists of non-negative integers, your task is to count the number of triplets chose ...

  6. spring-mabatis整合的配置文件

    1.spring.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns=" ...

  7. IOS Post请求(请求服务器)

    @interface HMViewController () @property (weak, nonatomic) IBOutlet UITextField *usernameField; @pro ...

  8. 在线文本编辑器cheditor应用实例

    CKEditor 即 FCKEDITOR . FCKeditor是眼下最棒的可见就可以得网页编辑器之中的一个,它採用JavaScript编写.具备功能强大.配置easy.跨浏览器.支持多种编程语言.开 ...

  9. gearman安装实录

    花了5个小时装好了gearman,问题不断,坑爹的服务器yum还坏了,悲催. 服务器系统:centos5.3 64位 gearman版本:1.1.8 安装包(相关依赖)下载 1.gearman安装包 ...

  10. 问题 C: B 统计程序设计基础课程学生的平均成绩

    题目描述 程序设计基础课程的学生成绩出来了,老师需要统计出学生个数和平均成绩.学生信息的输入如下: 学号(num)                     学生姓名(name)            ...