Kakfa揭秘 Day4

Kafka中分区深度解析

今天主要谈Kafka中的分区数和consumer中的并行度。从使用Kafka的角度说,这些都是至关重要的。

分区原则

Partition代表一个topic的分区,可以看到在构造时注册了zookeeper,也就是说kafka在分区时,是被zk管理的。

在实际存储数据时,怎么确定分区。
咱们从kafka的设计开始,为了完成高吞吐性,关键有两点设计:

  1. 使用了磁盘操作系统级的页page的访问,据说在顺序读写时比使用内存速度更快。
  2. 使用Topic进行分布化,可以突破一台机器的限制。consumer和producer都是基于Topic的多线程操作,其中每个线程都会操作一个分区。

也就是分区是高吞吐的一个关键。从具体实现看,每次来请求的时候,都会用一条新的线程来处理,每次consumer或者producer,背后都有一个socketServer,提供NIO操作。

那是不是说Kafka只要topic越多,上面的partition越多,吞吐就越大么?凡事都有利弊,这里有几点考虑。

  1. 当分区变多时,服务器需要开辟更多的线程,有更多的内存消耗和CPU的使用,太多的时候,会产生太多的句柄,那么管理方面消耗就会过大。
  2. kafka本身在运行时,每个producer在写数据时,都有一个cache,达到量之后,会把具体的消息发送给kafka集群,分区越多的情况下,从producer角度,cache就越大,内存消耗越多。
  3. kafka cluster有很多的组件,在分区数较多时会进行大量的管理,会产生大量的句柄。
  4. ReplicaManager 都要管理每个parition,需要保存相关的句柄,并进行leader、follower与zk交互,在选举过程中会有短暂的不可用,当分区过多时,让zk选举的工作也会特别庞大。

所以,从工作角度,是需要设定一个合适的分区数,这个是需要根据实际数据情况进行训练的。

分区过程

下面让我们具体跟踪一下分区的过程。

Producer

首先从发送数据开始:

数据本身一般有key,则直接获取指定,否则是使用partitioner进行随机选取。

随机计算时会根据Hash值进行计算。

Consumer

默认会用一条线程来消费数据,默认是一个分区一个线程,一个线程可以消费很多分区的数据。
在实现时,会有一个queue阻塞队列,如果没有消息的话,会阻塞的一直等消息过来。读取数据时会有一个策略,决定了每个consumer中的线程读取哪些分区。

欲知后事如何,且听下回分解!

DT大数据每天晚上20:00YY频道现场授课频道68917580

Kakfa揭秘 Day4 Kafka中分区深度解析的更多相关文章

  1. Kakfa揭秘 Day3 Kafka源码概述

    Kakfa揭秘 Day3 Kafka源码概述 今天开始进入Kafka的源码,本次学习基于最新的0.10.0版本进行.由于之前在学习Spark过程中积累了很多的经验和思想,这些在kafka上是通用的. ...

  2. Kakfa揭秘 Day1 Kafka原理内幕

    Spark Streaming揭秘 Day32 Kafka原理内幕 今天开始,会有几天的时间,和大家研究下Kafka.在大数据处理体系中,kafka的重要性不亚于SparkStreaming.可以认为 ...

  3. Kakfa揭秘 Day2 Kafka内核再揭秘

    Spark Streaming揭秘 Day33 Kafka内核再揭秘 优秀的框架会把引擎做到极致,Kafka就是这样,让我们再深入一下研究. 设计目标 kafka系统有着比较独特的的设计,包括5点: ...

  4. Kafka学习之一深度解析

    背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统.主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能保证常数时间的访问性能 高吞吐 ...

  5. Hadoop中Partition深度解析

    本文地址:http://www.cnblogs.com/archimedes/p/hadoop-partitioner.html,转载请注明源地址. 旧版 API 的 Partitioner 解析 P ...

  6. Kafka源码深度解析-序列7 -Consumer -coordinator协议与heartbeat实现原理

    转自:http://blog.csdn.net/chunlongyu/article/details/52791874 单线程的consumer 在前面我们讲过,KafkaProducer是线程安全的 ...

  7. 「Kafka」Kafka中offset偏移量提交

    在消费Kafka中分区的数据时,我们需要跟踪哪些消息是读取过的.哪些是没有读取过的.这是读取消息不丢失的关键所在. Kafka是通过offset顺序读取事件的.如果一个消费者退出,再重启的时候,它知道 ...

  8. Kafka深度解析(如何在producer中指定partition)(转)

    原文链接:Kafka深度解析 背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅的消息系统.主要设计目标如下: 以时间复杂度为O(1)的方式提供消息持久化能力,即使对TB级以上数据也能 ...

  9. Kafka深度解析

    本文转发自Jason’s Blog,原文链接 http://www.jasongj.com/2015/01/02/Kafka深度解析 背景介绍 Kafka简介 Kafka是一种分布式的,基于发布/订阅 ...

随机推荐

  1. 有符号的范围,-128~+127详解(zt)

    这是一个困惑了我几年的问题,它让我对现在的教科书和老师极其不满,从我N年前开始摸电脑时,就几乎在每一本C++教科书上都说,8位有符号的取值范围是-128~+127,为什么不是-127~+127呢,后来 ...

  2. PHP.7-HTML+CSS(一)-HTML语法、常用字符实体、颜色代码

    HTML+CSS HTML是WEB页面的描述性语言,浏览器解释的语言 CSS则是为HTML制定样式的机制,为浏览器解释的语言.它不能独立使用,没有HTML就没有CSS,定义网页的外观和布局(字体.背景 ...

  3. 小白日记30:kali渗透测试之Web渗透-扫描工具-Skipfish

    WEB渗透-skipfish Skipfish是一个命令行模式,以C语言编写的积极的Web应用程序的安全性侦察工具,没有代理模式. 它准备了一个互动为目标的网站的站点地图进行一个递归爬网和基于字典的探 ...

  4. Android进阶笔记11:ListView篇之ListView显示多种类型的条目(item)

    ListView可以显示多种类型的条目布局,这里写显示两种布局的情况,其他类似. 1. 这是MainActivity,MainActivity的布局就是一个ListView,太简单了这里就不写了,直接 ...

  5. wxPython tools img2py

    最近在学习wxPython时,发现img2py工具只能处理单个图标,就自己写了一个简单的小工具,把文件夹下所有的图标文件转化到py文件里, 话不多说,直接上代码: # -*- coding: utf- ...

  6. AVL树的插入操作(旋转)图解

    =================================================================== AVL树的概念       在说AVL树的概念之前,我们需要清楚 ...

  7. MySQL密码忘记之解决方法

    方法一: 通过修改配置文件来登录mysql,方法也不难. 操作步骤: 在安装目录下找到配置文件my.ini 2.在my.ini中找到 [mysqld]字段,在它底下加上skip-grant-table ...

  8. 关于Eclipse生成和导入Patch文件.

    & 生成的文件如下: 如果系统对这个patch文件有识别的话是一个带有问号的icon文件. diff --git a/main/plugins/org.talend.designer.core ...

  9. UseAdaptiveSizePolicy与CMS垃圾回收同时使用导致的JVM报错

    系统在灰度环境上变更时发现JVM启动报错,详细检查JVM配置参数,发现新境了如下配置: -XX:+UseAdaptiveSizePolicy和-XX:+UseConcMarkSweepGC 初步猜想是 ...

  10. c#语法笔记

    书写代码需要注意的地方: 1.代码中出现的所有标点都是英文半角 shift键快速切换中文半角和英文半角 shift+空格 切换全角/半角 2.在c#代码中,每行代码的结束,我们都以分号结束,注意:这个 ...