一直在思考写一些什么东西作为2017年开篇博客.突然看到一篇<Kafka学习之路>的博文,觉得十分应景,于是决定搬来这“他山之石”.虽然对于Kafka博客我一向坚持原创,不过这篇来自Confluent团队Gwen Shapira女士的博文实在精彩,所以还是翻译给大家,原文参见这里. ~~~~~~~~~~~~ Kafka学习之路 看上去很多工程师都已经把“学习Kafka”加到了2017年的to-do列表中.这没什么惊讶的,毕竟Apache Kafka已经是一个很火的框架了.只需了解一些基本的Ka…
一直在思考写一些什么东西作为2017年开篇博客.突然看到一篇<Kafka学习之路>的博文,觉得十分应景,于是决定搬来这“他山之石”.虽然对于Kafka博客我一向坚持原创,不过这篇来自Confluent团队Gwen Shapira女士的博文实在精彩,所以还是翻译给大家,原文参见这里. ~~~~~~~~~~~~ Kafka学习之路 看上去很多工程师都已经把“学习Kafka”加到了2017年的to-do列表中.这没什么惊讶的,毕竟Apache Kafka已经是一个很火的框架了.只需了解一些基本的Ka…
一.Kafka在zookeeper中存储结构图 二.分析 2.1 topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所有分配信息 [zk: localhost:(CONNECTED) ] get /brokers/topics/topic2 Schema: { "version": "版本编号目前固定为数字1", "partitions": { "partitionId编号&…
Zookeeper是一种在分布式系统中被广泛用来作为:分布式状态管理.分布式协调管理.分布式配置管理.和分布式锁服务的集群.kafka增加和减少服务器都会在Zookeeper节点上触发相应的事件kafka系统会捕获这些事件,进行新一轮的负载均衡,客户端也会捕获这些事件来进行新一轮的处理. Kafka集群是把状态保存在Zookeeper中的,首先要搭建Zookeeper集群. Linux服务器一台.三台.五台.(2*n+1),是否可以用偶数,不一定,其实没必要.假设集群中有3台服务器在工作,根据z…
一.高可用的由来 1.1 为何需要Replication 在Kafka在0.8以前的版本中,是没有Replication的,一旦某一个Broker宕机,则其上所有的Partition数据都不可被消费,这与Kafka数据持久性及Delivery Guarantee的设计目标相悖.同时Producer都不能再将数据存于这些Partition中. 如果Producer使用同步模式则Producer会在尝试重新发送message.send.max.retries(默认值为3)次后抛出Exception,…
一.Kafka的架构 如上图所示,一个典型的Kafka集群中包含若干Producer(可以是web前端产生的Page View,或者是服务器日志,系统CPU.Memory等),若干broker(Kafka支持水平扩展,一般broker数量越多,集群吞吐率越高),若干Consumer Group,以及一个Zookeeper集群.Kafka通过Zookeeper管理集群配置,选举leader,以及在Consumer Group发生变化时进行rebalance.Producer使用push模式将消息发…
一.下载 下载地址: http://kafka.apache.org/downloads.html http://mirrors.hust.edu.cn/apache/ 二.安装前提(zookeeper安装) 参考http://www.cnblogs.com/qingyunzong/p/8634335.html#_label4_0 三.安装 此处使用版本为kafka_2.11-0.8.2.0.tgz 2.1 上传解压缩 [hadoop@hadoop1 ~]$ tar -zxvf kafka_2.…
kafka 权威指南中文版 问题导读 1. 为什么数据管道是数据驱动企业的一个关键组成部分? 2. 发布/订阅消息的概念及其重要性是什么? 第一章 初识 kafka 企业是由数据驱动的.我们获取信息,分析它,处理它,并创造更多的产出.每一个应用程序都会产生数据,无论是日志消息.指标.用户行为.输出报文或者其他类型.每一个字节的数据都有它的作用,传入的数据会告诉接下来需要做什么.为了知道数据的意义,我们需要把数据从它产生的地方,传输到它能够被分析的地方.然后把分析的结果返回到它们能够被执行的地方.…
了解了什么是kafka( https://www.cnblogs.com/tree1123/p/11226880.html)以后 学习核心api之消费者,kafka的消费者经过几次版本变化,特别容易混乱,所以一定要搞清楚是哪个版本再研究. 一.旧版本consumer 只有旧版本(0.9以前)才有 high-level consumer 和 low-level consumer之分,很多的文章提到的就是这两个:低阶消费者和高阶消费者,低阶消费者更灵活但是需要自己维护很多东西,高阶就死板一点但是不需…
参考链接:apache kafka系列之在zookeeper中存储结构  http://blog.csdn.net/lizhitao/article/details/23744675 1.topic注册信息 /brokers/topics/[topic] : 存储某个topic的partitions所有分配信息 Schema:   {    "version": "版本编号目前固定为数字1",    "partitions": {       …