Spark Streaming揭秘 Day33

Kafka内核再揭秘

优秀的框架会把引擎做到极致，Kafka就是这样，让我们再深入一下研究。

设计目标

kafka系统有着比较独特的的设计，包括5点：

kafka第一设计原则是速度，不是个考虑功能的消息组件，主要考虑的是消息的传递速度，为了速度可以舍弃功能。
首要的考量是消息的吞吐量，而不是功能。使用3台pc Server，可以达到每秒百万条消息的吞吐量。
kafka和其他消息系统不太一样，消息在磁盘上可以持久化，所以消息存储能力是无限的，从kafka角度讲就是个分布式文件系统，消息可以重复消费。
哪些数据已经被使用，不是保存在broker上，而是保存在consumer中，所以可以根据业务逻辑去做很多很有意思的操作，可以认为kafka就是个实时的动态数据来源。consumer(比如sparkstreaming)去维护哪些消息被消费，这个和一般消息中间件也是不一样的。
kafka是个天然分布式系统，producer和consumer分布在不同的机器上，数量不会收到限制。运行的时候可以动态增减brokers，因为brokers是被zk管理的，consumer也会和zk打交道，zk作为适配层，让我们不需要关心状态信息，所以就算是broker挂掉，我们也不会感知到。

Consumer group

在kafka中，最小的通信单位是消息，消息是什么，由应用说了算。producer会以topic的方式，把消息交给brokers，topic是个抽象，也是个数据组织的方式，broker收到消息后，会存在具体的机器上，consumer可以订阅topic，producer所有发布的消息都会被订阅者感知到。

对于我们的一个topic而言，无论有多少个consumer，消息只会存储一次。consumer会注册给zookeeper，它会管理拓扑结构，所以可以协调数据的传输，

在订阅过程中，有个consumer group的概念，不同的group会同时消费，类似广播机制。但是如果在一个consumer group中有多个consumer，消息会在相同group中互斥。把所有的consumer放到一个group中，就类似队列。处理方式很灵活。

为什么会有consumer group的概念，每个consumer都一定要属于一个group，每个消息只会发给每个group中的一个consumer，一个group中的多个consumer，可能在不同机器上，但在逻辑上还是一个单位。这个抽象概念非常强大，目标是可以协调消费者，可以灵活的实现广播和队列。

性能设计

一个topic就是个table，table会动态增长，而且只是追加，在集群中有很多table，访问时访问table中的数据，有个巨大的优势是，只会在最新的基础上追加数据，所以不会有冲突，不需要加锁。完全可以使用磁盘的顺序读写，比随机读写快10000倍。

Kafka中用到了sendfile机制，随机读写是每秒k级别的，如果是线性读写可能能到每秒上G，kafka在实现时，速度非常快，是因为会把数据立即写入文件系统的持久化日志中，不是先写在缓存中，再flush到磁盘中。也就是说，数据过来的时候，是传输在os kernel的页面缓存中，由os刷新到磁盘中。在os采用sendfile的机制，os可以从页面缓存一步发送数据到网络中，同时，kafka支持gzip和Snappy对数据进行压缩，这个对传输数据至关重要。

数据存储采用topic-partition-record的三层体系，是个树状数据结构。对于树的存储，比较常用的是B tree，运行时间是O(logN)，但是在因为需要锁定机制，在磁盘层面，在高速交换、数据规模比较大的时候，性能损耗还是比较厉害的。Kafka的方式是把所有消息看成普通的日志，理念就是把日志内容简单的追加，采用offset读取数据，优势是性能完全是线性的，和数据大小没有关系，同时，读取操作和写入操作不会互相阻塞，性能能永远达到最大化。

小结

通过一系列的设计，使用kafka，我们可以抛弃昂贵的高性能硬盘，可以以十分之一的硬件投入产生十倍的消息吞吐能力，还能存储无限大的消息，构建一个在线的、交互式、个性化的大数据系统！！！

欲知后事如何，且听下回分解!

DT大数据每天晚上20：00YY频道现场授课频道68917580

Kakfa揭秘 Day2 Kafka内核再揭秘的更多相关文章

Kakfa揭秘 Day4 Kafka中分区深度解析
Kakfa揭秘 Day4 Kafka中分区深度解析今天主要谈Kafka中的分区数和consumer中的并行度.从使用Kafka的角度说,这些都是至关重要的. 分区原则 Partition代表一个to ...
Kakfa揭秘 Day3 Kafka源码概述
Kakfa揭秘 Day3 Kafka源码概述今天开始进入Kafka的源码,本次学习基于最新的0.10.0版本进行.由于之前在学习Spark过程中积累了很多的经验和思想,这些在kafka上是通用的. ...
Kakfa揭秘 Day1 Kafka原理内幕
Spark Streaming揭秘 Day32 Kafka原理内幕今天开始,会有几天的时间,和大家研究下Kafka.在大数据处理体系中,kafka的重要性不亚于SparkStreaming.可以认为 ...
Kafka 高性能吞吐揭秘
Kafka 高性能吞吐揭秘 Kafka作为时下最流行的开源消息系统,被广泛地应用在数据缓冲.异步通信.汇集日志.系统解耦等方面.相比较于RocketMQ等其他常见消息系统,Kafka在保障了大部分 ...
阅读《Oracle内核技术揭秘》的读书笔记
阅读<Oracle内核技术揭秘>,对oracle的内存结构.锁.共享池.undo.redo等整理成了如下的思维导图:
Spark Tungsten揭秘 Day2 Tungsten-sort Based Shuffle
Spark Tungsten揭秘 Day2 Tungsten-sort Based Shuffle 今天在对钨丝计划思考的基础上,讲解下基于Tungsten的shuffle. 首先解释下概念,Tung ...
Catalyst揭秘 Day2 Catalyst源码初探
Catalyst揭秘 Day2 Catalyst源码初探这节课从源码角度来讲catalyst. 首先有一个观点要澄清,就是技术不是越底层就越是性能和效率更高.因为除了指令执行性能以外,更重要的是架构 ...
Kafka内核中的分布式机制实现
Kafka内核中的分布式机制实现一个Topic中的所有数据分布式的存储在kafka集群的所有机器(broker)上,以分区(partition)的的形式进行数据存储:每个分区允许存在备份数据/备份分 ...
干货 | Kafka 内核知识梳理，附思维导图
前面我们已经分享过几篇Kafka的文章,最近简单梳理了下Kafka内核相关的知识,涵盖了Kafka架构总结,副本机制,控制器,高水位机制,日志或消息存储,消息发送与消费机制等方面知识.文末含对应的Ka ...

随机推荐

给jdk写注释系列之jdk1.6容器(6)-HashSet源码解析&Map迭代器
今天的主角是HashSet,Set是什么东东,当然也是一种java容器了. 现在再看到Hash心底里有没有会心一笑呢,这里不再赘述hash的概念原理等一大堆东西了(不懂得需要先回去看下Has ...
redis中5种数据结构的使用
一.redis 数据结构使用场景原来看过 redisbook 这本书,对 redis 的基本功能都已经熟悉了,从上周开始看 redis 的源码.目前目标是吃透 redis 的数据结构.我们都知道,在 ...
vb.net Linq 筛选（像 select distinct） DateTable 日期数据中的年份
Private Sub initDDLByYear(ByVal dt As DataTable) ddlByYear.Items.Clear() ddlByYear.Items.Add(") ...
LeetCode 263
Ugly Number Write a program to check whether a given number is an ugly number. Ugly numbers are posi ...
poj 1848 树形dp
思路:表示我很弱,这个想不出dp方程,参考网上代码 #include<iostream> #include<algorithm> #include<cstring> ...
使用GBK编码请求访问nodejs程序报415错误：Error: unsupported charset at urlencodedParser ...
最近遇到一个问题,第三方用户向我们提供给的回调地址发送请求时一直报415错误,结果发现他们使用的是GBK编码请求,而我们使用的node + express4 程序,不支持GBK编码请求. 问题出在下面 ...
iOS下获取用户当前位置的信息
#import <MapKit/MKMapView.h> @interface ViewController (){ CLLocationManager *_currentLoaction ...
MySQL DBA 刚入职时如何快速拥抱新的环境
方法何其多.这里介绍的是懒人做法.也就是.借助工具但是.生产环境是不能随便安装程序的.肿么办? 没关系.我们伟大的percona 已经为我们考虑周详鸟这里.我们要借助三个工具: ...
203. Segment Tree Modify
最后更新二刷 08-Jan-2017 利用线段树来更改,找到更改的NODE,然后更改那个brach上的所有max值. 首先确定recursion的终止条件然后通过判断大小来找方向找到NODE之后 ...
省市联动Demo
<!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml"><head><meta ...

Kakfa揭秘 Day2 Kafka内核再揭秘