Kakfa揭秘 Day2 Kafka内核再揭秘】的更多相关文章

Spark Streaming揭秘 Day33 Kafka内核再揭秘 优秀的框架会把引擎做到极致,Kafka就是这样,让我们再深入一下研究. 设计目标 kafka系统有着比较独特的的设计,包括5点: kafka第一设计原则是速度,不是个考虑功能的消息组件,主要考虑的是消息的传递速度,为了速度可以舍弃功能. 首要的考量是消息的吞吐量,而不是功能.使用3台pc Server,可以达到每秒百万条消息的吞吐量. kafka和其他消息系统不太一样,消息在磁盘上可以持久化,所以消息存储能力是无限的,从kaf…
Kakfa揭秘 Day4 Kafka中分区深度解析 今天主要谈Kafka中的分区数和consumer中的并行度.从使用Kafka的角度说,这些都是至关重要的. 分区原则 Partition代表一个topic的分区,可以看到在构造时注册了zookeeper,也就是说kafka在分区时,是被zk管理的. 在实际存储数据时,怎么确定分区. 咱们从kafka的设计开始,为了完成高吞吐性,关键有两点设计: 使用了磁盘操作系统级的页page的访问,据说在顺序读写时比使用内存速度更快. 使用Topic进行分布…
Kakfa揭秘 Day3 Kafka源码概述 今天开始进入Kafka的源码,本次学习基于最新的0.10.0版本进行.由于之前在学习Spark过程中积累了很多的经验和思想,这些在kafka上是通用的. 总体 首先从总体方式进行一下分析,进入最关键的core. 从源码角度看,最关键的是标红的几个模块. admin是管理模块,主要管理Topic和Partition相关的东西. client客户端模块,给客户端(consumer.producer.broker等的总称)提供各种支持功能. cluster…
Spark Streaming揭秘 Day32 Kafka原理内幕 今天开始,会有几天的时间,和大家研究下Kafka.在大数据处理体系中,kafka的重要性不亚于SparkStreaming.可以认为sparkstreaming掌控处理,而kafka掌控流程控制. 让我们来了解下sparkstreaming和kafka的整合细节. 三大特征 消息组件一般有两种类型: 队列方式,可能有一个循环器不断循环一个对象(消息队列),当消息A进入中队列中,被唤醒感知到队列时,交给处理者handler来处理.…
Kafka 高性能吞吐揭秘   Kafka作为时下最流行的开源消息系统,被广泛地应用在数据缓冲.异步通信.汇集日志.系统解耦等方面.相比较于RocketMQ等其他常见消息系统,Kafka在保障了大部分功能特性的同时,还提供了超一流的读写性能.本文将针对Kafka性能方面进行简单分析,首先简单介绍一下Kafka的架构和涉及到的名词:Topic:用于划分Message的逻辑概念,一个Topic可以分布在多个Broker上.Partition:是Kafka中横向扩展和一切并行化的基础,每个Topic都…
阅读<Oracle内核技术揭秘>,对oracle的内存结构.锁.共享池.undo.redo等整理成了如下的思维导图:…
Spark Tungsten揭秘 Day2 Tungsten-sort Based Shuffle 今天在对钨丝计划思考的基础上,讲解下基于Tungsten的shuffle. 首先解释下概念,Tungsten-sort是对普通sort的一种优化,排序的不是内容本身,而是内容序列化后字节数组的指针(元数据),把数据的排序转变为了指针数组的排序,实现了直接对序列化后的二进制数据进行排序.由于直接基于二进制数据进行操作,所以在这里面没有序列化和反序列化的过程.内存的消耗大大降低,相应的,会极大的减少的…
Catalyst揭秘 Day2 Catalyst源码初探 这节课从源码角度来讲catalyst. 首先有一个观点要澄清,就是技术不是越底层就越是性能和效率更高.因为除了指令执行性能以外,更重要的是架构层次,里面的核心是数据和代码的本地性问题.如果是能在内存中或者多线程运行,很多时候Java会比C语言性能高很多. 一般对rdd的操作都没有dataframe的快,主要就是catalyst这个执行优化器的作用. SqlContext处理流程 写SparkSql的程序,有一个非常核心的东西,就是SQLC…
Kafka内核中的分布式机制实现 一个Topic中的所有数据分布式的存储在kafka集群的所有机器(broker)上,以分区(partition)的的形式进行数据存储:每个分区允许存在备份数据/备份分区(存储在同一kafka集群的其它broker上的分区) 每个数据分区在Kafka集群中存在一个broker节点上的分区叫做leader,存储在其它broker上的备份分区叫做followers:只有leader节点负责该分区的数据读写操作,followers节点作为leader节点的热备节点,从l…
前面我们已经分享过几篇Kafka的文章,最近简单梳理了下Kafka内核相关的知识,涵盖了Kafka架构总结,副本机制,控制器,高水位机制,日志或消息存储,消息发送与消费机制等方面知识.文末含对应的Kafka内核思维导图,供参考. 1.架构总结 1)Kafka实际上也是一个主从架构,有一个Controller角色即控制器,协调管理整个集群:2)有几个Kafka术语肯定是不陌生的:broker,topic,partition,segment,生产者producer,消费者consumer: 2.消费…