Kafka详解一：Kafka简介

问题导读

1.Kafka有何特性？
2.Kafka有哪些组件？

背景：
当今社会各种应用系统诸如商业、社交、搜索、浏览等像信息工厂一样不断的生产出各种信息，在大数据时代，我们面临如下几个挑战：

如何收集这些巨大的信息
如何分析它
如何及时做到如上两点

以上几个挑战形成了一个业务需求模型，即生产者生产（produce）各种信息，消费者消费（consume）（处理分析）这些信息，而在生产者与消费者之间，需要一个沟通两者的桥梁-消息系统。
从一个微观层面来说，这种需求也可理解为不同的系统之间如何传递消息。

Kafka诞生：由 linked-in 开源

kafka-即是解决这类问题的一个框架，它实现了生产者和消费者之间的无缝连接。
kafka-高产出的分布式消息系统(A high-throughput distributed messaging system)
Kafka特性：它形容自己的设计是独一无二的，先看一下它有如何过人之处：

快：单个kafka服务每秒可处理数以千计客户端发来的几百MB数据。
可扩展性：一个单一集群可作为一个大数据处理中枢，集中处理各种类型业务
持久化：消息被持久化到磁盘（可处理TB数据级别数据但仍保持极高数据处理效率），并且有备份容错机制
分布式：着眼于大数据领域，支持分布式，集群可处理每秒百万级别消息
实时性：生产出的消息可立即被消费者消费

<ignore_js_op>

file:///C:/Users/ADMINI~1/AppData/Local/Temp/enhtmlclip/Image(2).png
Kafka的组件：

topic：消息存放的目录即主题
Producer：生产消息到topic的一方
Consumer：订阅topic消费消息的一方
Broker：Kafka的服务实例就是一个broker

如下图所示，Producer生产的消息通过网络发送给Kafka cluster，而Consumer从其中消费消息

<ignore_js_op>

file:///C:/Users/ADMINI~1/AppData/Local/Temp/enhtmlclip/Image(3).png
Topic 和Partition:

消息发送时都被发送到一个topic，其本质就是一个目录，而topic由是由一些Partition Logs(分区日志)组成,其组织结构如下图所示：

file:///C:/Users/ADMINI~1/AppData/Local/Temp/enhtmlclip/Image.png
我们可以看到，每个Partition中的消息都是有序的，生产的消息被不断追加到Partition log上，其中的每一个消息都被赋予了一个唯一的offset值。
Kafka集群会保存所有的消息，不管消息有没有被消费；我们可以设定消息的过期时间，只有过期的数据才会被自动清除以释放磁盘空间。比如我们设置消息过期时间为2天，那么这2天内的所有消息都会被保存到集群中，数据只有超过了两天才会被清除。

Kafka需要维持的元数据只有一个--消费消息在Partition中的offset值，Consumer每消费一个消息，offset就会加1。其实消息的状态完全是由Consumer控制的，Consumer可以跟踪和重设这个offset值，这样的话Consumer就可以读取任意位置的消息。

把消息日志以Partition的形式存放有多重考虑，第一，方便在集群中扩展，每个Partition可以通过调整以适应它所在的机器，而一个topic又可以有多个Partition组成，因此整个集群就可以适应任意大小的数据了；第二就是可以提高并发，因为可以以Partition为单位读写了。

分布式：
这些Partitions分布在集群的每一台server上，而每一个Partition在集群中都可以有多个备份，这个备份数量是可配置的。
每个Partition都有一个leader server，而其他备份的server都称为followers，只有leader服务器才会处理这个Partition上所有的读写请求，而其它followers则被动的复制leader上的数据。如果一个leader挂掉了，followers中的一个服务器则会自动升级为leader。因此，其实集群中的每个服务器都扮演着一个Partition的leader服务器，和其它Partition的follower服务器。

Producers:
Producer可以根据自己的选择发布消息到一个主题，Producer也可以自己决定把消息发布到这个主题的哪个Partition，当然我们可以选择API提供的简单的分区选择算法，也可以自己去实现一个分区选择算法。

Consumers:
消息传递通常由两种模式，queuing（队列）和publish-subscribe （发布-订阅）

queuing：每个Consumer从消息队列中取走一个消息
pub-scrib:消息被广播到每个Consumer

Kafka通过提供了一个对Consumer的抽象来同时实现这两种模式-ConsumerGroup。Consumer实例需要给自己指定一个ConsumerGroup的名字，如果所有的实例都用同一个ConsumerGroup名字，那么这些Consumer就会以queuing的模式工作；如果所有的实例分别用的不同的ConsumerGroup名字，那么它们就以public-subscribe模式工作。

如下图所示：含两台server的集群一共有p0~p3四个Partition，两个Consumer Group，在Group内部是以queuing的模式消费Partition，在Group之间是以pub-scrib模式消费。

file:///C:/Users/ADMINI~1/AppData/Local/Temp/enhtmlclip/Image(1).png
消息顺序性：
Kafka是如何确保消息消费的顺序性的呢？前面讲到过Partition，消息在一个Partition中的顺序是有序的，但是Kafka只保证消息在一个Partition中有序，如果要想使整个topic中的消息有序，那么一个topic仅设置一个Partition即可。

转自：http://www.aboutyun.com/thread-11113-1-1.html

Kafka详解一：Kafka简介的更多相关文章

kafka详解(一)--kafka是什么及怎么用
kafka是什么在回答这个问题之前,我们需要先了解另一个东西--event streaming. 什么是event streaming 我觉得,event streaming 是一个动态的概念,它描 ...
kafka详解(二)--kafka为什么快
前言 Kafka 有多快呢?我们可以使用 OpenMessaging Benchmark Framework 测试框架方便地对 RocketMQ.Pulsar.Kafka.RabbitMQ 等消息系统 ...
yum是什么？repo文件详解，epel简介，yum源的更换，repo和epel区别
yum是什么?repo文件详解,epel简介,yum源的更换,repo和epel区别简单概括: repo和epel的关系 repo是配置源的,即配置从哪里下载包(以及依赖关系)的. epel是作为桥 ...
Kafka 详解（一）------简介
在前面几篇博客我们介绍过一种消息中间件——RabbitMQ,本篇博客我们介绍另外一个消息中间件——Kafka,Kafka是由LinkedIn开发的,使用Scala编写,是一种分布式,基于发布/订阅的消 ...
[转]kafka详解
一.入门 1.简介 Kafka is a distributed,partitioned,replicated commit logservice.它提供了类似于JMS的特性,但是在设 ...
（转）kafka 详解
kafka入门:简介.使用场景.设计原理.主要配置及集群搭建(转) 问题导读: 1.zookeeper在kafka的作用是什么? 2.kafka中几乎不允许对消息进行"随机读写"的 ...
Kafka 详解（二）------集群搭建
这里通过 VMware ,我们安装了三台虚拟机,用来搭建 kafka集群,虚拟机网络地址如下: hostname ipaddress ...
kafka详解
一.基本概念介绍 Kafka是一个分布式的.可分区的.可复制的消息系统.它提供了普通消息系统的功能,但具有自己独特的设计. 这个独特的设计是什么样的呢? 首先让我们看几个基本的消息系统术语:Kafk ...
大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令
一.kafka常用命令 1.创建topic bin/kafka-topics. --replication-factor --zookeeper mini1: // 如果配置了PATH可以省略相关命令 ...
Kafka详解五：Kafka Consumer的底层API- SimpleConsumer
问题导读 1.Kafka如何实现和Consumer之间的交互?2.使用SimpleConsumer有哪些弊端呢? 1.Kafka提供了两套API给Consumer The high-level Con ...

随机推荐

Android无线测试之—UiAutomator UiDevice API介绍八
获取包名.开启通知栏.快速设置.获取布局文件的方法一.包名.通知栏.快速设置.布局文件等相关知识: 1)包名:标示应用的符号,每个应用的名字 2)通知栏:从主界面的顶端向下拉,就可以打开通知栏 3) ...
Android开发：《Gradle Recipes for Android》阅读笔记(翻译)3.1——使用Build Types
问题: 你想要自定义debug和release的build types,并且新建一些新的types. 解决方案: 使用buildTypes块配置build types. 讨论: build type决 ...
#1560 : H国的身份证号码II(dp+矩阵快速幂)
#1560 : H国的身份证号码II 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 H国的身份证号码是一个N位的正整数(首位不能是0).此外,由于防伪需要,一个N位正整 ...
巨蟒python全栈开发django5:组件&&CBV&FBV&&装饰器&&ORM增删改查
内容回顾: 补充反向解析 Html:{% url ‘别名’ 参数 %} Views:reverse(‘别名’,args=(参数,)) 模板渲染变量 {{ 变量名 }} 逻辑相关 {% %} 过滤器: ...
二维码及二维码接合短URL的应用
二维码 1.什么是二维码? 二维条形码,最早发明于日本,它是用某种特定的几何图形按一定规律在平面(二维方向上)分布的黑白相间的图形记录数据符号信息的,在代码编制上巧妙地利用构成计算机内部逻辑基础的“0 ...
C# MD5加密与校验引用
using System; using System.Security.Cryptography; using System.Text; class Example { // Hash an inpu ...
hdu 4956 Poor Hanamichi BestCoder Round #5（数学题）
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=4956 Poor Hanamichi Time Limit: 2000/1000 MS (Java/Ot ...
[Idea]安装avtiviti插件以及插件中文乱码
安装插件打开IDEA,按ctrl+alt+S,打开Pluging 乱码问题 idea 安转activiti插件后,编辑流程图发现保存后中文乱码,并且idea的字符集(Settings—>Edi ...
Java基础—复用类
复用代码是Java众多引人注目的功能之一. 一般而言,实现代码重用java提供了两种方式:组合以及继承. 组合:新的类由现有类的对象所组成.(复用现有代码的功能,而非它的形式) 继承:按照现有类的类型 ...
RedisClient For .Net
Redis Client For .Net 介绍 redis支持各种语言版本的client,其中.net平台下比较火的有ServiceStack.Redis和StackExchange.Redis 选 ...

Kafka详解一：Kafka简介

Kafka详解一：Kafka简介的更多相关文章

随机推荐

热门专题