大数据之kafka-05.讲聊聊Kafka的版本号

今天聊聊kafka版本号的问题，这个问题实在是太重要了，我觉得甚至是日后能否用好kafka的关键。上一节我们介绍了kafka的几种发行版，其实不论是哪种kafka，本质上都内嵌了最核心的Apache kafka，也就是社区版kafka，那今天我们就说说Apache kafka版本号的问题。在开始之前，先强调一下，后面出现的所有"版本"这个词都表示kafka具体的版本号，而非上一节中介绍kafka种类，这一点要切记。

那么现在可能会有这样的疑问，我为什么要关心版本号的问题呢？直接使用最新版本不就好了吗？当然了，这的确是一种有效的版本选择的策略，但我想强调的是这种策略并非在任何场景下都适用。如果你不了解各个版本之间的差异和功能变化，你怎么能准确地评判某kafka版本是不是满足你的业务需求呢？因此在深入学习kafka之前，花些时间搞明白版本演进，实际上是非常划算的一件事。

kafka版本命名

当前Apache kafka已经迭代到2.2版本，社区正在为2.3.0发版日期进行投票，相信2.3.0也会马上发布。但是稍微有些令人吃惊的是，很多人对于kafka的版本命名理解存在歧义。比如我们在官网下载kafka时，会看到这样的版本。

于是有些人或许就会纳闷，难道kafka的版本号不是2.11或者2.12吗？其实不然，前面的版本号是编译kafka源代码的Scala编译器版本。kafka服务器端的代码完全由Scala语言编写，Scala同时支持面向对象编程和函数式编程，用Scala写的源代码编译之后也是普通".class"文件，因此我们说Scala是JVM系的语言，它的很多设计思想都是为人称道的。

事实上目前java新推出的很多功能都是在不断地向Scala靠近，比如lambda表达式、函数式接口、val变量等等。一个有意思的事情是，kafka新版客户端代码完全由java语言编写，于是有人展开了java vs Scala的讨论，并从语言特性的角度尝试分析kafka社区为什么放弃Scala转而使用java重写客户端代码。其实事情远没有那么复杂，仅仅是因为社区来了一批java程序员而已，而以前老的Scala程序员隐退罢了。可能有点跑题了，但是不管怎么样，我依然建议你有空学一学python语言。

回到刚才的版本号讨论，现在你应该知道了对于kafka-2.11-2.1.1的提法，真正的kafka版本号是2.1.1，那么这个2.1.1又表示什么呢？前面的2表示大版本号，即major version；中间的1表示小版本号或者次版本号，即minor version；最后的1表示修订版本号，也就是patch号。kafka社区在发布1.0.0版本后特意写过一篇文章，宣布kafka版本命名规则正式从4位演进到3位，比如0.11.0.0版本就是4位版本号。

kafka版本演进

于kafka目前总共演进了7个大版本，分别是0.7、0.8、0.9、0.10、0.11、1.0和2.0，其中的小版本和patch版本很多。哪些版本引入了哪些重大的功能改进？建议你最好做到如数家珍，因为这样不仅令你在和别人交谈时显得很酷，而且如果你要向架构师转型或者已然是架构师，那么这些都是能够帮助你进行技术选型、架构评估的重要依据。

我们先从0.7版本说起，实际上也没有什么可说的，这是最早开源时的上古版本了。这个版本只提供了最基础的消息队列功能，甚至连副本机制都没有，我实在想不出来有什么理由你要使用这个版本，因此如果有人要向你推荐这个版本，果断走开好了。

kafka从0.7时代演进到0.8之后正式引入了副本机制，至此kafka成为了一个真正意义上完备的分布式、高可靠消息队列解决方案。有了副本备份机制，kafka就能够比较好地做到消息无丢失。那时候生产和消费消息使用的还是老版本客户端的api，所谓老版本是指当你使用它们的api开发生产者和消费者应用时，你需要指定zookeeper的地址而非broker的地址。

如果你现在尚不能理解这两者的区别也没有关系，我会在后续继续介绍它们。老版本的客户端有很多的问题，特别是生产者api，它默认使用同步方式发送消息，可以想到其吞吐量一定不会太高。虽然它也支持异步的方式，但实际场景中消息有可能丢失，因此0.8.2.0版本社区引入了新版本producer api，即需要指定broker地址的producer。

据我所知，国内依然有少部分用户在使用0.8.1.1、0.8.2版本。我的建议是尽量使用比较新的版本，如果你不能升级大版本，我也建议你至少要升级到0.8.2.2这个版本，因为该版本中老版本消费者的api是比较稳定的。另外即使升级到了0.8.2.2，也不要使用新版本producer api，此时它的bug还非常的多。

时间来到了2015年11月，社区正式发布了0.9.0.0版本，在我看来这是一个重量级的大版本更迭，0.9大版本增加了基础的安全认证/权限功能，同时使用java重写了新版本消费者的api，另外还引入了kafka connect组件用于实现高性能的数据抽取。如果这么眼花缭乱的功能你一时无暇顾及，那么我希望你记住这个版本另一个好处，那就是新版本的producer api在这个版本中算比较稳定了。如果你使用0.9作为线上环境不妨切换到新版本producer，这是此版本一个不太为人所知的优势。但和0.8.2引入新api问题类似，不要使用新版本的consumer api，因为bug超级多，绝对用到你崩溃。即使你反馈问题到社区，社区也不管的，它会无脑的推荐你升级到新版本再试试，因此千万别用0.9新版本的consumer api。对于国内一些使用比较老的CDH的创业公司，鉴于其内嵌的就是0.9版本，所以要格外注意这些问题。

0.10.0.0是里程碑式的大版本，因为该版本引入了kafka streams。从这个版本起，kafka正式升级成为分布式流处理平台，虽然此时的kafka streams还不能上线部署使用。0.10大版本包含两个包含两个小版本：0.10.1和0.10.2，它们的主要功能变更都是在kafka streams组件上。如果把kafka作为消息引擎，实际上该版本并没有太多的功能提升。不过在我的印象中，自从0.10.2.2版本起，新版本consumer api算是比较稳定了。如果你依然在使用0.10大版本，那么我强烈建议你至少升级到0.10.2.2然后再使用新版本的consumer api。还有个事情不得不提，0.10.2.2修复了一个可能导致producer性能降低的bug。基于性能的缘故你也应该升级到0.10.2.2。

在2017年6月，社区发布了0.11.0.0版本，引入了两个重量级的功能变更：一个是提供幂等性producer api；另一个是对kafka消息格式做了重构。

前一个好像更加吸引眼球一些，毕竟producer实现幂等性以及支持事务都是kafka实现流处理结果正确性的基石。没有它们，kafka streams在做流处理时无法像批处理那样保证结果的正确性。当然同样是由于刚推出，此时的事务api有一些bug，不算十分稳定。另外事务api主要是为kafka streams应用服务的，实际使用场景中用户利用事务api自行编写程序的成功案例并不多见
第二个改进是消息格式的变化。虽然它对用户是透明的，但是它带来的深远影响将一直持续。因为格式变更引起消息格式转换而导致的性能问题在生产环境中屡见不鲜，所以一定要谨慎对待0.11这个版本的变化。不得不说的是，在这个版本中，各个大功能组件都变得相当稳定了，国内该版本的用户也很多，应该算是目前最主流的版本之一了。也正是因为这个缘故，社区为0.11大版本特意退出了3个patch版本，足见它的受欢迎程度。我的建议是，如果你对1.0版本是否适用于线上环境依然感到困惑，那么至少将你的环境升级到0.11.0.3，因为这个版本的消息引擎功能已经非常完善了。

最后合并说一下1.0和2.0版本吧，因为在我看来这两个大版本主要还是kafka streams的各种改进，在消息引擎方面并未引入太多的重大功能特性。kafka streams的确在这两个版本有着非常大的变化，也必须承认kafka streams目前依然还在积极地发展着。如果你是kafka streams的用户，只要选择2.0.0版本吧。

去年8月国外出了一本书叫做kafka streams in action，中文译名：kafka streams实战，它是基于kafka streams1.0版本撰写的，但是用2.0版本去运行书中的很多例子，居然很多都已经无法编译了，足见两个版本的差别之大。不过如果你在意的依然是消息引擎，那么这两个大版本都是可以用于生产环境的。

最后还有个建议，不论你使用的是哪个版本，都请尽量保持服务器端版本和客户端版本一致，否则你将损失很多kafka为你提供的性能优化收益。

大数据之kafka-05.讲聊聊Kafka的版本号的更多相关文章

CentOS6安装各种大数据软件第五章：Kafka集群的配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
大数据学习day36-----flume02--------1.avro source和kafka source 2. 拦截器（Interceptor） 3. channel详解 4 sink 5 slector（选择器）6 sink processor
1.avro source和kafka source 1.1 avro source avro source是通过监听一个网络端口来收数据,而且接受的数据必须是使用avro序列化框架序列化后的数据.a ...
大数据学习（05）——MapReduce/Yarn架构
Hadoop1.x中的MapReduce MapReduce作为Hadoop最核心的两个组件之一,在1.0版本中就已经存在了.它包含这么几个角色: Client 多数情况下Client的作用就是向服务 ...
大数据平台架构（flume＋kafka＋hbase＋ELK+storm+redis+mysql）
上次实现了flume+kafka+hbase+ELK:http://www.cnblogs.com/super-d2/p/5486739.html 这次我们可以加上storm: storm-0.9.5 ...
Kafka 集群在马蜂窝大数据平台的优化与应用扩展
马蜂窝技术原创文章,更多干货请订阅公众号:mfwtech Kafka 是当下热门的消息队列中间件,它可以实时地处理海量数据,具备高吞吐.低延时等特性及可靠的消息异步传递机制,可以很好地解决不同系统间数 ...
大数据平台消息流系统Kafka
Kafka前世今生随着大数据时代的到来,数据中蕴含的价值日益得到展现,仿佛一座待人挖掘的金矿,引来无数的掘金者.但随着数据量越来越大,如何实时准确地收集并分析如此大的数据成为摆在所有从业人员面前的难 ...
java 与大数据学习较好的网站
C# C#中 Thread,Task,Async/Await,IAsyncResult 的那些事儿!https://www.cnblogs.com/doforfuture/p/6293926.html ...
CentOS6安装各种大数据软件第四章：Hadoop分布式集群配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
大数据入门第三天——基础补充与ActiveMQ
一.多线程基础回顾先导知识在基础随笔篇:http://www.cnblogs.com/jiangbei/p/6664555.html 以下此部分以补充为主 1.概念进程:进行中的程序,内存中有独立 ...

随机推荐

scrapy爬虫案例：用MongoDB保存数据
用Pymongo保存数据爬取豆瓣电影top250movie.douban.com/top250的电影数据,并保存在MongoDB中. items.py class DoubanspiderItem( ...
Sword 正则表达式
Metacharacters(元字符) 在正则表达式中有一些具有特殊含义的字母,被称为元字符,简言之,元字符就是描述字符的字符,它用于对字符表达式的内容.转换及各种操作信息进行描述. \ 将下一个字符 ...
Qt编写安防视频监控系统15-远程回放
一.前言远程回放有两种处理方式,一种是采用NVR厂家提供的SDK开发包来登录到NVR上,然后根据SDK的函数接口指定的视频文件,当然也有接口查询视频文件列表等:一种是采用视频监控行业的国标GB281 ...
Qt开发经验小技巧71-80
在我们使用QList.QStringList.QByteArray等链表或者数组的过程中,如果只需要取值,而不是赋值,强烈建议使用 at() 取值而不是 [] 操作符,在官方书籍<C++ GUI ...
Sql server 中将数据行转列列转行（一）
在做一些数据分析与数据展示时,经常会遇到行转列,列转行的需求,今天就来总结下: 在开始之前,先来创建一个临时表,并且写入一些测试数据: /* 第一步:创建临时表结构 */ CREATE TABLE # ...
开发日记：Windows进程守护工具
近期,中心应用服务无故关闭.在检查系统和应用程序日志无果后采取了进程守护的方法.测试期内,脚本未出现系统资源占用过多的情况. 使用说明:1.进程守护.vbs 使用时需修改运行周期(10行).守护进程 ...
Springboot中IDE支持两种打包方式，即jar包和war包
Springboot中IDE支持两种打包方式,即jar包和war包打包之前修改pom.xml中的packaging节点,改为jar或者war 在项目的根目录执行maven 命令clean pa ...
Flask自动刷新前端页面（方便调试）livereload
是不是每次调整模板文件,就要停止flask服务器,重启flask服务器,再去浏览器刷新页面? 有没有办法自动完成这3步呢? 安装livereload即可, 仅仅把app.run() 改为下面的例子就可 ...
php 回调函数结合闭包（匿名函数）的使用示例
<?php /** * php 回调函数结合闭包(匿名函数)的使用 */ function callback( $callback ){ $variable = 'program'; $ret1 ...
adb 命令简介
adb命令配置 1 在命令行下,进入用户目录 cd $HOME 2 .bash_profile文件输入下行命令获取当前文件列表: ls -al 查看文件列表,如果没有.bash_profile文件, ...

大数据之kafka-05.讲聊聊Kafka的版本号

大数据之kafka-05.讲聊聊Kafka的版本号的更多相关文章

随机推荐

热门专题