通过Kafka的快速入门 https://www.cnblogs.com/tree1123/p/11150927.html

能了解到Kafka的基本部署,使用,但他和其他的消息中间件有什么不同呢?

Kafka的基本原理,术语,版本等等都是怎么样的?到底什么是Kafka呢?

一、Kafka简介

http://kafka.apache.org/intro

2011年,LinkIn开源, November 1, 2017 1.0版本发布 July 30, 2018 2.0版本发布

参考官网的图:

Kafka®用于构建实时数据管道和流式应用程序。它具有水平可扩展性、容错性、速度极快,并在数千家公司投入生产。

kafka官网最新的定义:Apache Kafka® is a distributed streaming platform

也就是分布式流式平台。

介绍:

三个特点:

  • Publish and subscribe to streams of records, similar to a message queue or enterprise messaging system.
  • Store streams of records in a fault-tolerant durable way.
  • Process streams of records as they occur.

消息 持久化 流处理

两类应用:

  • Building real-time streaming data pipelines that reliably get data between systems or applications

  • Building real-time streaming applications that transform or react to the streams of data

    实时流数据管道 实时流应用程序

    几个概念

    • Kafka is run as a cluster on one or more servers that can span multiple datacenters.

    • The Kafka cluster stores streams of records in categories called topics.

    • Each record consists of a key, a value, and a timestamp

      集群 topic record

      四个核心api

      • The Producer API allows an application to publish a stream of records to one or more Kafka topics.
      • The Consumer API allows an application to subscribe to one or more topics and process the stream of records produced to them.
      • The Streams API allows an application to act as a stream processor, consuming an input stream from one or more topics and producing an output stream to one or more output topics, effectively transforming the input streams to output streams.
      • The Connector API allows building and running reusable producers or consumers that connect Kafka topics to existing applications or data systems. For example, a connector to a relational database might capture every change to a table.

       Producer API  Consumer API  Streams API Connector API

客户端服务器通过tcp协议 支持多种语言

主题和日志

一个主题可以有零个,一个或多个消费者订阅写入它的数据

对于每个主题,Kafka群集都维护一个分区日志

每个分区都是一个有序的,不可变的记录序列,不断附加到结构化的提交日志中。

分区中的记录每个都被分配一个称为偏移的顺序ID号,它唯一地标识分区中的每个记录。

Kafka集群持久地保留所有已发布的记录 - 无论它们是否已被消耗 - 使用可配置的保留期。可以配置这个时间。

Kafka的性能在数据大小方面实际上是恒定的,因此长时间存储数据不是问题。

每个消费者保留的唯一元数据是该消费者在日志中的偏移或位置。

这种偏移由消费者控制:通常消费者在读取记录时会线性地提高其偏移量,但事实上,由于消费者控制位置,它可以按照自己喜欢的任何顺序消费记录。例如,消费者可以重置为较旧的偏移量以重新处理过去的数据,或者跳到最近的记录并从“现在”开始消费。

这使得消费者特别容易使用。

生产者:

生产者将数据发布到他们选择的主题。

为了负载均衡,可以选择多个分区。

消费者:

消费者组

传统的消息队列 发布订阅 都有弊端

队列可以扩展但不是多用户,发布订阅每条消费发给每个消费者,无法扩展。

但是kafka这个模式 解决了这些问题

kafka确保使用者是该分区的唯一读者并按顺序使用数据,由于有许多分区,这仍然可以

平衡许多消费者实例的负载。

作为存储系统

作为流处理系统

二、常见使用

http://kafka.apache.org/uses

消息

Kafka可以替代更传统的消息代理。消息代理的使用有多种原因(将处理与数据生成器分离,缓冲未处理的消息等)。与大多数消息传递系统相比,Kafka具有更好的吞吐量,内置分区,复制和容错功能,这使其成为大规模消息处理应用程序的理想解决方案。

根据我们的经验,消息传递的使用通常相对较低,但可能需要较低的端到端延迟,并且通常取决于Kafka提供的强大的耐用性保证。

在这个领域,Kafka可与传统的消息传递系统(如ActiveMQ或 RabbitMQ)相媲美。

网站活动跟踪

站点活动(页面查看,搜索或用户可能采取的其他操作)发布到中心主题,每个活动类型包含一个主题。实时处理,实时监控以及加载到Hadoop或离线数据仓库系统以进行离线处理和报告。

度量

Kafka通常用于运营监控数据。

日志聚合

许多人使用Kafka作为日志聚合解决方案的替代品。日志聚合通常从服务器收集物理日志文件,并将它们放在中央位置(可能是文件服务器或HDFS)进行处理。Kafka抽象出文件的细节,并将日志或事件数据更清晰地抽象为消息流。

流处理

从0.10.0.0开始,这是一个轻量级但功能强大的流处理库,名为Kafka Streams

三、官方文档-核心机制

http://kafka.apache.org/documentation/

简介 使用 快速入门 都已经学习过了

生态:这里有一些kafka的生态,各种Connector 可以直接连接数据库 es等等 还可以连接其他的流处理 还有各种管理工具

https://cwiki.apache.org/confluence/display/KAFKA/Ecosystem

kafka connect stream management

kafka考虑的几个问题:

吞吐量: 用到了page cache 并不是硬盘读写

消息持久化: 这个还是靠他独特的offset设计

负载均衡:分区副本机制

消息:kafka的消息由 key value timestamp组成 消息头里定义了一些压缩 版本号的信息

crc 版本号 属性 时间戳 长度 key长度 key value长度 value

用的是二进制 不用java类

topic和partition:

这是kafka最核心,也是最重要的机制,这个机制让他区别于其他。

offset是指某一个分区的偏移量。

topic partition offset 这三个唯一确定一条消息。

生产者的offset其实就是最新的offset。

消费者的offset是他自己维护的,他可以选择分区最开始,最新,也可以记住他消费到哪了。

消费者数大于分区,就会有消费者空着。 消费者数小于分区,就会均衡消费。

消费者组是为了不同组的消费者可以同时消费一个分区的消息。

replica

这是为了防止服务器挂掉。

分为两类 leader replica 和 follow replica

只有 leader replica会响应客户端。

一旦leader replica所在的broker宕机,会选出新的leader。

kafka保证一个partition的多个replica一定不会分配到同一台broker上。

follow与leader实时同步。

ISR

in-sync replica 与leader replica保持同步的replica集合

正常时,所有的replica都在ISR中,但如果响应太慢,就会踢出ISR。之后追上来再加进来。

ISR中至少有一个replica是活着的。

ISR中所有replica都收到消息,这个消息才是已提交状态。

四、版本变化

kafka学习(二)-------- 什么是Kafka的更多相关文章

  1. Kafka学习(三)-------- Kafka核心之Cosumer

    了解了什么是kafka( https://www.cnblogs.com/tree1123/p/11226880.html)以后 学习核心api之消费者,kafka的消费者经过几次版本变化,特别容易混 ...

  2. Kafka学习(一)kafka指南(about云翻译)

    kafka 权威指南中文版 问题导读 1. 为什么数据管道是数据驱动企业的一个关键组成部分? 2. 发布/订阅消息的概念及其重要性是什么? 第一章 初识 kafka 企业是由数据驱动的.我们获取信息, ...

  3. kafka学习(二)

    创建kafka生产者 要往kafka写入消息,首先要创建一个生产者对象,并设置一些熟悉.kafka生产者有3个必选的属性.   1.bootstrap.servers 该属性指定broker的地址清单 ...

  4. kafka学习(二)-zookeeper集群搭建

    zookeeper概念 ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名 服务等.Zookeeper是h ...

  5. Apache Kafka学习 (二) - 多代理(broker)集群

    1. 配置server.properties > cp config/server.properties config/server-1.properties> cp config/ser ...

  6. Kafka学习(四)-------- Kafka核心之Producer

    通过https://www.cnblogs.com/tree1123/p/11243668.html 已经对consumer有了一定的了解.producer比consumer要简单一些. 一.旧版本p ...

  7. kafka学习(三)kafka生产者,消费者详解

    文章更新时间:2020/06/14 一.生产者 当我们发送消息之前,先问几个问题:每条消息都是很关键且不能容忍丢失么?偶尔重复消息可以么?我们关注的是消息延迟还是写入消息的吞吐量? 举个例子,有一个信 ...

  8. kafka学习(四)kafka安装与命令行调用

    文章更新时间:2020/06/07 一.安装JDK 过程就不过多介绍了... 二.安装Zookeeper 安装过程可以参考此处~ 三.安装并配置kafka Kafka下载地址  http://kafk ...

  9. Docker下kafka学习三部曲之二:本地环境搭建

    在上一章< Docker下kafka学习,三部曲之一:极速体验kafka>中我们快速体验了kafka的消息分发和订阅功能,但是对环境搭建的印象仅仅是执行了几个命令和脚本,本章我们通过实战来 ...

随机推荐

  1. 用Delphi实现文件下载的几种方法(三种使用控件的方法)

    有个API就是UrlDownloadToFile.不仅如此,Delphi的一些控件也可以轻松实现下载,如NMHTTP,指定NMHTTP1.InputFileMode := ture; 指定Body为本 ...

  2. qt在windows下的udp通信(最简单)

    qt编程:windows下的udp通信 本文博客链接:http://blog.csdn.net/jdh99,作者:jdh,转载请注明. 环境: 主机:win7 开发环境:qt 功能: 用udp进行收发 ...

  3. BITED数学建模七日谈之一:参加全国大学生数学建模比赛前你需要积累哪些

    大家好,我是数学中国的版主magic2728,非常高兴能够借助数学中国这个平台分享一些自己的经验,帮助大家在国赛的最后备战中能够最后冲刺提高.分享一共分为七个部分,分七天写给大家,下面是第一个部分:参 ...

  4. Python字典的合并与拆分

    1.字典的合并 dict1={1:[1,11,111],2:[2,22,222]} dict2={3:[3,33,333],4:[4,44,444]} dictMerged2=dict(dict1, ...

  5. Django ORM基础篇【转载】

    ORM( Object relational mapping 对象关系映射)D:把面向对象中的类和数据库表一一对应起来,在django项目与数据库之间起着桥梁的                     ...

  6. Metasploit渗透测试

    原创博客,转载请注出处! 学习笔记 参考书籍<Metasploit渗透测试指南(修订版)> 经过多日学习,初步掌握metasploit基本参数和使用方法,现进行渗透测试实践 靶机IP:16 ...

  7. kafka 名词概念

    ProducerConsumerBrokerTopicPartitionConsumer Group分布式 Broker     Kafka集群包含一个或多个服务器,这种服务器被称为brokerTop ...

  8. 【设计模式】结构型06享元模式(Flyweight Pattern)

    享元模式(Flyweight Pattern) 首先吐槽下这个名字,享元?共享元素的话感觉还是蛮好的~但是这个英文... 意图:更好的重用.管理对象,减少内存开销,节约资源. 主要解决:在有大量重复对 ...

  9. SHELL 中条件语句的运用 if for 条件测试语句

    if条件测试语句可以让脚本根据实际情况自动执行相应的命令.从技术角度来讲,if语句分为单分支结构.双分支结构.多分支结构:其复杂度随着灵活度一起逐级上升. if条件语句的单分支结构由if.then.f ...

  10. 理论+实践解析“IT治理”之模式与原则

    IT治理工作作为企业信息化建设的上层建筑,扮演着及其重要的角色.本文结合作者的学习及实践经验给出一些借鉴. 一.IT治理概述 1.1 何为IT治理 在企业信息化建设中的最大问题,往往不是技术问题,也不 ...