聊聊kafka结构

　　因为kafka用到的地方比较多，日志收集、数据同步等，所以咱们来聊聊kafka。

　　首先先看看kafaka的结构，producer将消息放到一个Topic然后push到broker，然后cosumer从broker中拉取对应Topic的消息。

　　broker可能大家不太熟悉，这个broker就是构成kafka集群的机器，用于实现将数据持久化并且其他数据从leader broker中进行备份，一旦其中一台 broker出现问题之后将由其他broker直接升级为leader，然后代替原来的broker。

　　zookeeper的作用是记录当前leader broker的id，并将其发送给producer，并且记录每个consumer的进行的offset。offset就是消息存在的位置，这块与其他消息组件不同的是其他的消息组件消费完了直接就没有了，但是kafka会将消息持久化一段时间，这个时间可以是几天时间，用于消息重新再读取。

　　接下来咱们再继续看看broker的内部实现：

　　在每一个broker里边有相应的partition，这个partition就是按照Topic将消息分发到不同的partition, 然后consumer再到相应的partition获取对应的消息。如果producer发送消息到某个指定的key上，那么kafka会将这个key进行hash到指定的partition上。在kafka里边可以指定factor，这个factor的作用是备份，对partition的备份。如果指定factor=2，那么一个partion会有2个备份。如下图所示：

　　下面说一下consumer group, 因为partion设置的数量固定，所以在consumer group中的数量一定是小于等于partition的数量，因为最多每个consumer消息一个，consumer多了就消费不过来了。

　　consumer group 是拥有相同group id的机器，这些机器是单独的机器，每个机器都可以指定topic、partition进行消费。如下图所示：

　　这些就是基本的kafka结构了，当然里边还有很多非常详细的内容，这里就不单独说了。kafka的功能非常强大，分布式，可动态扩展，消息复制，高可用低延迟等特点，这就是为什么很多人喜欢使用kafka。kafka单台机器生产消费机器的话，每秒处理70-80万左右的消息。当然消息备份采用异步处理，如果消息采用同步处理的话，一秒可以处理的数据每秒也有30-40万左右。

　　kafka支持消息持久化，这个持久化的时间可以进行配置，也就是消息可以被consumer多次消费。这个是其他消息队列所没有的。

　　kafka支持consumer进行assign(分配）topic，也就是单独消费某一个消息，在consumer group里边只有一台机器消费此topic。也支持Pub-Sub模式，所有订阅指定Topic的consumer会收到消息。同时支持取消订阅功能。

　　kafka还支持connector(连接器），可以进行数据库连接，连上数据库后可以将数据库的记录读取到，按照自增列id或者timestamp（时间戳）进行读取，然后将消息写入到需要的地方，比如写到数据分析的地方。

　　kafka支持stream(流）,可以将消息写入到stream，并将消息以流的形式从一个topic写入到另一个topic中，这个功能其他队列也没有。

　　kafka一般用于消息队列，日志收集，网站行为记录等，当然它也有区别，比如不能topic不能使用通配符，connector的支持的语言不是特别多。

　　好了，关于kafka咱们先聊到这里，还有很多地方没有说到，有觉得那些写的不好的地方还望同学不吝赐教。

聊聊kafka结构的更多相关文章

大数据之kafka-05.讲聊聊Kafka的版本号
今天聊聊kafka版本号的问题,这个问题实在是太重要了,我觉得甚至是日后能否用好kafka的关键.上一节我们介绍了kafka的几种发行版,其实不论是哪种kafka,本质上都内嵌了最核心的Apache ...
聊聊kafka
两个月因为忙于工作毫无输出了,最近想给团队小伙伴分享下kafka的相关知识,于是就想着利用博客来做个提前的准备工作了:接下来会对kafka做一个简单的介绍,包括利用akf原则来解析单机下kafk的各个 ...
【原创】美团二面：聊聊你对 Kafka Consumer 的架构设计
在上一篇中我们详细聊了关于 Kafka Producer 内部的底层原理设计思想和细节, 本篇我们主要来聊聊 Kafka Consumer 即消费者的内部底层原理设计思想. 1.Consumer之总体 ...
涨姿势了解一下Kafka消费位移可好？
摘要:Kafka中的位移是个极其重要的概念,因为数据一致性.准确性是一个很重要的语义,我们都不希望消息重复消费或者丢失.而位移就是控制消费进度的大佬.本文就详细聊聊kafka消费位移的那些事,包括: ...
Kafka入门（2）：消费与位移
摘要在这篇文章中,我将从消息在Kafka中的物理存储方式讲起,介绍分区-日志段-日志的各个层次. 然后我将接着上一篇文章的内容,把消费者的内容展开讲一讲,区分消费者与消费者组,以及这么设计有什么用. ...
【原创】阿里三面:搞透Kafka的存储架构，看这篇就够了
阅读本文大约需要30分钟.这篇文章干货很多,希望你可以耐心读完. 你好, 我是华仔,在这个 1024 程序员特殊的节日里,又和大家见面了. 从这篇文章开始,我将对 Kafka 专项知识进行深度剖析, ...
Go语言结构
目录结构体定义创建结构体实例普通方式创建结构体实例 new()创建结构体实例结构体实例初始化结构体类型实例和指向它的指针内存布局结构体的方法面向对象组合(继承) 结构体使用注意事项 G ...
Kafka架构
一.Kafka介绍 Kafka是Linkin在2010年开源的分布式发布订阅消息系统,Kafka是高吞吐量的消息订阅系统. 二.Kafka结构 Kafka由三部分构成,producer.broker. ...
Kafka系列1：Kafka概况
Kafka系列1:Kafka概况 Kafka是当前分布式系统中最流行的消息中间件之一,凭借着其高吞吐量的设计,在日志收集系统和消息系统的应用场景中深得开发者喜爱.本篇就聊聊Kafka相关的一些知识点. ...

随机推荐

Spring源码解读
beanfactory https://www.cnblogs.com/lspz/p/6244948.html requestmapping https://blog.csdn.net/u012557 ...
swift中闭包的学习。
在swift中的闭包等同于OC中的block,它的用途就是在于可以包装一段代码在必要的时候进行调用. 闭包定义: {(类型列表) -> 返回值 in // 多条swift语句 // 执行代码 ...
【Linux】Linux中Swap与Memory内存简单介绍
背景介绍对于Linux来说,其在服务器市场的使用已经占据了绝对的霸主地位,不可动摇.Linux的各种设计思想和使用也被传承(当然不乏各种黑Linux,而且黑的漂亮).Linux的很多独特的设计,对性 ...
spring data redis使用1——连接的创建
spring data redis集成了几个Redis客户端框架,Jedis , JRedis (Deprecated since 1.7), SRP (Deprecated since 1.7) a ...
mysql之 innobackupex备份+binlog日志的完全恢复【转】
前言: MySQL的完全恢复,我们可以借助于完整的备份+binlog 来将数据库恢复到故障点. 备份可以是热备与逻辑备份(mysqldump),只要备份与binlog是完整的,都可以实现完全恢复. ...
C：详解C中volatile关键字
原文地址:http://www.cnblogs.com/yc_sunniwell/archive/2010/06/24/1764231.html volatile提醒编译器它后面所定义的变量随时都有可 ...
C/C++杂记：深入虚表结构
1. 虚表与“虚函数表” 在“C/C++杂记:虚函数的实现的基本原理”一文中曾提到“虚函数表”的概念,只是为了便于理解,事实是:虚函数表并不真的独立存在,它只是虚表(virtual table)中的一 ...
转载：获取Nginx源码（1.3.5）《深入理解Nginx》（陶辉）
原文:https://book.2cto.com/201304/19616.html 可以在Nginx官方网站(http://nginx.org/en/download.html)获取Nginx源码包 ...
将数据库从Oracle迁移到SQL Server
参考链接:http://www.360doc.com/content/15/0310/14/9260775_454038517.shtml
激活函数--（Sigmoid，tanh，Relu，maxout）
Question? 激活函数是什么? 激活函数有什么用? 激活函数怎么用? 激活函数有哪几种?各自特点及其使用场景? 1.激活函数 1.1激活函数是什么? 激活函数的主要作用是提供网络的非线性建模能力 ...

聊聊kafka结构

聊聊kafka结构的更多相关文章

随机推荐

热门专题