博文索引

Kafka 简介

数据是系统的燃料,系统的效率高低很大程度取决于数据流转是否及时:

  • 将数据从生产源头移动到分析处理终端,这个过程完成得越快,组织的反应就越敏捷。
  • 移动工具越是简单易用,花费在数据移动上的精力就越少,开发者就越能专注于核心业务。

Kafka 是一款为数据整合而生的基于发布与订阅的消息系统Messaging System,方便用户在多系统间实现松散耦合的异步数据传输。

Kafka 为消息提供顺序持久化保存,可按需读取。并通过集群部署与冗余副本保障数据安全并提供性能伸缩能力。

核心概念

  • 消息message:最基本的数据单元,由字节数组组成。消息可以有一个可选的键key,键也是一个字节数组。

  • 主题topic:消息通过主题进行分类。主题就好比数据库的表,或者文件系统里的文件夹。

  • 分区partition:一个提交日志,主题可以被分为若干个分区。消息以追加的方式写入分区尾部,然后以先入先出的顺序读取。

  • 偏移offset:一个不断递增的整数值,在创建消息时指定。同个分区中每个消息的偏移量都是唯一的。

  • 生产者producer:创建消息并将其发布到一个特定的主题上。

  • 消费者consumer:订阅主题并按照消息生成的顺序读取消息。

消息分区

Kafka 通过分区来实现 数据冗余可伸缩性:分区可以分布在不同的服务器上,一个主题可以横跨多个服务器,以此来提供比单个服务器更强大的性能。

要注意,由于一个主题一般包含几个分区,因此无法在整个主题范围内保证消息的顺序。生产者在默认情况下,会把消息均衡地分布到主题的所有分区上,而并不关心特定消息会被写到哪个分区。

为了保证消息顺序可控,可以为同类消息指定相同的键,然后生产者会根据键的 hashmod 结果选取分区,从而保证具有相同键的消息总会被写到相同的分区上。

消费者组

每个分区只能被分配给一个消费者,然后消费者会按照消息生成的顺序读取它们。

过程中,消费者会记录已读消息的偏移量,避免重复消费同一条消息。

消息系统中常见的通信模型有两种:

  • 消息队列message queue点对点point to point的排他通信,每条消息只会被消费一次。
  • 发布/订阅pub/sub:类似广播通信,每条消息可能会被消费多次。

为了同时支持这两种模式,Kafka 在消费者端引入了 消费者组群counsumer group这一逻辑概念:

  • 不同的消费者组群之间彼此互不相关,两者消费到的消息是一致的,此时相当于实现了发布/订阅模型。
  • 而同个组群的消费者之间存在互斥关系,每个消费者只能消费部分数据,此时相当于实现了消息队列模型。

集群

一个独立的 Kafka 服务器被称为 broker,其主要职责有两个:

  • 接收来自生产者的消息,为消息设置偏移量,并提交消息到磁盘保存。
  • 为消费者提供服务,对读取分区的请求作出响应,返回已经提交到磁盘上的消息。

为保证可用性,broker 以集群的方式部署。每个集群会自动选举出一个 controller 负责管理工作,包括将分区分配给 broker 和监控 broker。

一个分区从属于一个 broker,该 broker 被称为分区的 leader。

如果分区允许多副本replica,这些副本会分布在多个 broker 上,此时会发生分区复制replication

这种复制机制为分区提供了消息冗余,当 leader 失效时分区会被其他 broker 接管,相关的消费者和生产者都会重连新的 leader。

优势

  • 系统解耦:异构系统可以通过 Kafka 进行通信,减少系统之间协调与开发成本。
  • 模型丰富:通过消费者组的概念,一份数据可以同时支持不同的通信模型,同能够满足不同的应用需求
  • 磁盘存储:Kafka 会将消息持久化到磁盘,允许消息积压并保证数据不会丢失,无需担心生产与消费速率不匹配的问题。
  • 横向扩展:Kafka 通过集群与分区的方式实现了横向扩展,并且可以在线对集群进行扩容。

Kafka 博文索引的更多相关文章

  1. Redis 博文索引

    博文索引 Redis 对象与编码 Redis 持久化 Redis 主从复制 Redis 哨兵 Redis 缓存淘汰 Redis 集合统计 Redis 简介

  2. Lodop的JS模版代码、文档式模版 生成加载赋值博文索引

    Lodop获取全部JS代码,传统JS模版的生成.LODOP设置打印设计返回JS代码是变量 LodopJS代码模版的加载和赋值 Lodop生成文档式模版 LodopJS文档式模版的加载和赋值 由于加载J ...

  3. 手把手教你使用FineUI开发一个b/s结构的取送货管理信息系统系列博文索引

    近阶段接到一些b/s类型的软件项目,但是团队成员之前大部分没有这方面的开发经验,于是自己选择了一套目前网上比较容易上手的开发框架(FineUI),计划录制一套视频讲座,来讲解如何利用FineUI快速开 ...

  4. Jmeter博文索引~基础知识和实践操作汇总

    所有Jmeter笔记的目录/索引 一,基础操作和常用操作 Jmeter入门(一)理论基础 Jmeter安装及配置(含JDK安装) Jmeter之设置线程组运行次数/时间 Jmeter之参数化(4种设置 ...

  5. 【非lodop的】JS和html相关博文索引

    JS: eval()方法:JS-JAVASCRIPT的eval()方法. Date()对象.getFullYear() 方法.getDate()方法.console.dir()方法:LODOP打印用J ...

  6. Kafka索引设计的亮点

    前言 其实这篇文章只是从Kafka索引入手,来讲述算法在工程上基于场景的灵活运用.单单是因为看源码的时候有感而写之. 索引的重要性 索引对于我们来说并不陌生,每一本书籍的目录就是索引在现实生活中的应用 ...

  7. Kafka技术内幕 读书笔记之(六) 存储层——日志的读写

    -Kafka是一个分布式的( distributed ).分区的( partitioned ).复制的( replicated )提交日志( commitlog )服务 . “分布式”是所有分布式系统 ...

  8. mysql 索引笔记

    MyISAM引擎的B+Tree的索引 通过上图可以直接的看出, 在MyISAM对B+树的运用中明显的特点如下: 所有的非叶子节点中存储的全部是索引信息 在叶子节点中存储的 value值其实是 数据库中 ...

  9. Kafka日志段读写分析

    引子 之所以写这篇文章是因为之前面试时候被面试官问到(倒)了,面试官说:"你说你对Kafka比较熟?看过源码? 那说说kafka日志段如何读写的吧?" 我心里默默的说了句 &quo ...

随机推荐

  1. windows上传ipa到苹果开发者中(app store)的方法

    假如你已经使用过苹果开发者中心上架app,你肯定知道在苹果开发者中心的web界面,无法直接提交ipa文件,而是需要使用第三方工具,将ipa文件上传到构建版本,开发者中心才能在构建版本里选择构建版本上架 ...

  2. mybatis缓存源码分析之浅谈缓存设计

    本文是关于mybatis缓存模块设计的读后感,关于缓存的思考,关于mybatis的缓存源码详细分析在另一篇文章:https://www.cnblogs.com/gmt-hao/p/12448896.h ...

  3. Python虚拟环境配置应用

    Python好用,但用好却不易,其中比较头疼的就是包管理和Python不同版本的问题,为了解决这些问题,有不少发行版的Python,比如WinPython.Anaconda等,这些发行版将python ...

  4. UDP flood UDP Port Denial-of-Service Attack

    https://baike.baidu.com/item/UDP%20flood/5504851 UDPFlood是日渐猖厥的流量型DoS攻击,原理也很简单.常见的情况是利用大量UDP小包冲击DNS服 ...

  5. 使用eventfd创建一个用于事件通知的文件描述符

    https://www.jianshu.com/p/57cc1d7d354f nat穿透代码c++

  6. SpringBoot Web 学习

    SpringBoot Web 开发 静态资源 打开WebMvcAutoConfiguration类里面的静态类WebMvcAutoConfigurationAdapter里面的addResourceH ...

  7. Golang--Directional Channel(定向通道)

    Directional Channel 通道可以是定向的(directional).在默认情况下,通道将以双向的(bidirectional)形式运作,用户既可以把值放人通道,也可以从通道取出值;但是 ...

  8. Spark Straming,Spark Streaming与Storm的对比分析

    Spark Straming,Spark Streaming与Storm的对比分析 一.大数据实时计算介绍 二.大数据实时计算原理 三.Spark Streaming简介 3.1 SparkStrea ...

  9. Dubbo官网实战使用技巧

    原文链接:Dubbo官网实战使用技巧 1.启动时检查: 我们检查依赖的服务是否启动,可利用下面三个属性,优先级从左到右逐渐降低. 如果服务不是强依赖,或者说服务之间可能存在死循环依赖,我们应该将 ch ...

  10. zjnuSAVEZ (字符串hash)

    Description There are eight planets and one planetoid in the Solar system. It is not a well known fa ...