Kafka Strem

Overview

Concepts

Topology

Time

States

Window

Hopping time windows

Tumbling time windows

Sliding windows

Join

API

Low-Level Processor API

High-Level DSL API

Overview

Kafka Stream特点

》简单轻量的SDK

》除了对Kafka本身的依赖外，无外部依赖

》支持容错的local state从而支持高效的状态操作，如Join和Window操作

》Record级别的处理

》提供两种处理原语，Processor API和DSL

Concepts

Stream Topology

》Stream时间上无解的，有序的，不可变数据集

》Stream Processing application通过一个或多个Topology定义的计算逻辑

》Stream processor一个计算原语，类似于Storm的Bolt

Time

》Event Time消息创建时间，一般由消费携带

》Processing Time消息被处理的时间

》Ingestion Time消息存入Topic/Partition时的时间

State

》In-memory State Store（类似Hash表，将结果存在内存中）

》Persistent State Store（一份存内存，一份存磁盘）

Window

Hopping time windows

》Advance interval 结果输出interval

》Window size计算数据集

》使用场景：Advance interval为1个小时，Window size为1s，1s刷新一次，我能知道每秒后前一个小时的pv/uv量

Tumbling time windows

》Hopping time windows的特例（Advance interval=Window size）

》使用场景：统计每一个小时的pv/uv是多少

Sliding windows

》只用于Join操作，可由JoinWindow类指定

KStream vs. KTable

KStream

》KStream为数据流，每条消息代表一条不可变的新纪录

Ktable

》KTable为change log流，每条消息代表一个更新，几条key相同的消息会将该key的值更新为最后一条消息的值

Example

》对于KStream和KTable中插入两条消息(“key”,1),(“key2”,2)

》对KStream作sum，结果为(“key1”,3)

》对KTable作sum，结果为(“key1”,2)

Join

KSream-KStream Join

》适用于Window Join

》结果为KStream

KStream-KTable Join

》KTable的变化只影响KStream中新数据

》新结果的输入由KStream驱动

》输出为KStream

KTable-KTable join

》类似于RDBMS的Join

》结果为KTable

Kafka Strem的更多相关文章

Spark踩坑记——Spark Streaming+Kafka
[TOC] 前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了spark strea ...
消息队列 Kafka 的基本知识及 .NET Core 客户端
前言最新项目中要用到消息队列来做消息的传输,之所以选着 Kafka 是因为要配合其他 java 项目中,所以就对 Kafka 了解了一下,也算是做个笔记吧. 本篇不谈论 Kafka 和其他的一些消息 ...
kafka学习笔记：知识点整理
一.为什么需要消息系统 1.解耦: 允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2.冗余: 消息队列把数据进行持久化直到它们已经被完全处理,通过这一方式规避了数据丢失风险. ...
.net windows Kafka 安装与使用入门(入门笔记)
完整解决方案请参考: Setting Up and Running Apache Kafka on Windows OS 在环境搭建过程中遇到两个问题,在这里先列出来,以方便查询: 1. \Jav ...
kafka配置与使用实例
kafka作为消息队列,在与netty.多线程配合使用时,可以达到高效的消息队列
kafka源码分析之一server启动分析
0. 关键概念关键概念 Concepts Function Topic 用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上. Partition 是Kafka中横向扩展和一 ...
Kafka副本管理—— 为何去掉replica.lag.max.messages参数
今天查看Kafka 0.10.0的官方文档,发现了这样一句话:Configuration parameter replica.lag.max.messages was removed. Partiti ...
Kafka：主要参数详解（转）
原文地址:http://kafka.apache.org/documentation.html ############################# System ############### ...
kafka
2016-11-13 20:48:43 简单说明什么是kafka? Apache kafka是消息中间件的一种,我发现很多人不知道消息中间件是什么,在开始学习之前,我这边就先简单的解释一下什么是消息 ...

随机推荐

解决ssh连接中断程序终止的问题——tmux
参考:http://www.cnblogs.com/kevingrace/p/6496899.html ssh连接有时候会异常中断,重连后原本运行的程序会中断,要解决这个问题,我们可以使用Linux终 ...
nodejs module/require
1. wrap up a module using module.exports, name the file to a.js var fun1=function(){ var stylus = re ...
PPAS下安装 pg_stat_statements过程记录
磨砺技术珠矶,践行数据之道,追求卓越价值回到上一级页面: PostgreSQL统计信息索引页回到顶级页面:PostgreSQL索引页 PostgreSQL中,如何安装pg_stat_sta ...
crontab执行PHP
在stackoverflow上看到一个问题:http://stackoverflow.com/questions/14015543/crontab-php-wget-or-curl 有三种通过cron ...
Visual Studio 起始页中不显示最近使用的项目的解决办法
将 HKEY_CURRENT_USER/Software/Microsoft/Windows/CurrentVersion/Policies/Explorer/NoRecentDocsHistory的 ...
linux-centos6①
第三篇 JavaScript基础
知识预览 BOM对象 DOM对象(DHTML) 实例练习转:https://www.cnblogs.com/yuanchenqi/articles/5980312.html#_label2 一.Ja ...
logstash-input-jdbc and logstash-ouput-jdbc
要求通过logstash从oracle中获取数据,然后相应的直接传入mysql中去. 基本测试成功的配置文件如下: input { stdin { } jdbc { jdbc_connection_s ...
jmeter关联三种常用方法
在LR中有自动关联跟手动关联,但在我看来手动关联更准确,在jmeter中,就只有手动关联为什么要进行关联:对系统进行操作时,本次操作或下一次操作对服务器提交的请求,这参数里边有部分参数需要服务器返回 ...
凸包算法（Graham扫描法）详解
先说下基础知识,不然不好理解后面的东西两向量的X乘p1(x1,y1),p2(x2,y2) p1Xp2如果小于零则说明 p1在p2的逆时针方向如果大于零则说明 p1在p2的顺时针方向 struct ...

Kafka Strem

Kafka Strem的更多相关文章

随机推荐

热门专题