Kafka的基本概念与安装指南(单机+集群同步)
最近在搞spark streaming,很自然的前端对接的就是kafka。不过在kafka的使用中还是遇到一些问题,比如mirrormaker莫名其妙的丢失数据[原因稍后再说],消费数据offset错乱[之后介绍spark streaming的时候再解释]
总之,还是遇到了不少的问题。本篇就从下面几个方面介绍一下kafka:
- 基本介绍
- 安装与helloworld
- producer
- consumer
- mirror maker跨集群同步
- 控制台
基本介绍
Kafka是一款分布式的消息队列框架,它由三个重要的部分组成:
- Producer 消息的生产者,负责生产消息
- Broker 消息的存储,负责消息的持久化与高可用
- Consumer 消息的消费者,负责消费消息
大致的结构如下:

消息则是通过topic进行标识,每个topic可以有多个partition分区组成。每一个parition内部消息是按照顺序写入的,所有的partition加起来才是全部的数据,也就是说kafka并不能保证全局有序,只能保证在某一个partition内部是有序的。

消费者消费数据的时候是根据一个叫做offset的游标来记录消费的位置,可以通俗的把它理解成递增的id。

消费者可以由多个组成一个消费者组,同一个消费者组内的数据不会重复消费。不过消费者的数量跟partition的数量是有关系的,如果只有一个partition,那么即便是由10个消费者,同一时间也只能由一个消费者进行消费。
另外,broker是负责消息的持久化,前面提到过消息是通过partition组织在一起的,物理上则是通过一个log文件来记录。如果有一条消息写入,就会追加到log文件的末尾,当大小超过一定的阈值后,就新建一个log文件。如果log文件的修改时间超过一定的阈值,kafka还会清理掉该文件。
原理的东西就简单说这么多,下面来看看安装与体验吧!
安装与hello world
按照官方文档的步骤,是最快的入门方式:
下载安装包
去官方下载地址下载安装包,并参照对应的版本的文档即可,下载后执行下面的命令:
> tar -xzf kafka_2.11-0.9.0.0.tgz
> cd kafka_2.11-0.9.0.0
启动zookeeper
如果方便的话,最好自己额外安装zookeeper,或者与其他的组建公用一个zk,否则单独为了kafka运行一个zk还是挺浪费资源的。
> bin/zookeeper-server-start.sh config/zookeeper.properties
最好不要随意修改zk的地址,2181是默认的端口号,如果修改,后面启动kafka会很麻烦,修改的地方会很多。
启动kafka-broker
bin/kafka-server-start.sh config/server.properties
创建主题并查看
bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic test
bin/kafka-topics.sh --list --zookeeper localhost:2181
启动producer
bin/kafka-console-producer.sh --broker-list localhost:9092 --topic test
启动consumer
bin/kafka-console-consumer.sh --zookeeper localhost:2181 --topic test --from-beginning
至此,单机版的kafka就搭建完成了!如果要创建kafka的集群,可以直接
producer例子
import kafka.producer.KeyedMessage;
import kafka.javaapi.producer.Producer;
import kafka.producer.ProducerConfig;
import java.util.ArrayList;
import java.util.List;
import java.util.Properties;
public class KafkaProducer {
private static final String TOPIC = "test"; //kafka创建的topic
private static final String CONTENT = "This is a single message"; //要发送的内容
private static final String BROKER_LIST = "xxxx:9092"; //broker的地址和端口
private static final String SERIALIZER_CLASS = "kafka.serializer.StringEncoder"; // 序列化类
public static void main(String[] args) {
Properties props = new Properties();
props.put("serializer.class", SERIALIZER_CLASS);
props.put("metadata.broker.list", BROKER_LIST);
ProducerConfig config = new ProducerConfig(props);
Producer<String, String> producer = new Producer<String, String>(config);
//Send one message.
KeyedMessage<String, String> message =
new KeyedMessage<String, String>(TOPIC, CONTENT);
producer.send(message);
//Send multiple messages.
List<KeyedMessage<String,String>> messages =
new ArrayList<KeyedMessage<String, String>>();
for (int i = 0; i < 100; i++) {
messages.add(new KeyedMessage<String, String>
(TOPIC, i+"Multiple message at a time. " + i));
}
producer.send(messages);
producer.close();
}
}
执行后,如果有一个consumer启动,就可以看到消息输出。
consumer例子
import kafka.consumer.Consumer;
import kafka.consumer.ConsumerConfig;
import kafka.consumer.ConsumerIterator;
import kafka.consumer.KafkaStream;
import kafka.javaapi.consumer.ConsumerConnector;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import java.util.Properties;
public class KafkaConsumer {
public static void main(String[] args) {
Properties props = new Properties();
props.put("zookeeper.connect", "xxxx:2181");
props.put("group.id", "t1");
Map<String, Integer> topicCountMap = new HashMap<String, Integer>();
topicCountMap.put("xxx-topic", 1);
ConsumerConnector consumer = Consumer.createJavaConsumerConnector(new ConsumerConfig(props));
Map<String, List<KafkaStream<byte[], byte[]>>> msgStreams = consumer.createMessageStreams(topicCountMap);
List<KafkaStream<byte[], byte[]>> msgStreamList = msgStreams.get("test");
for(KafkaStream stream : msgStreamList){
ConsumerIterator<byte[], byte[]> iterator = stream.iterator();
while(iterator.hasNext()) {
String message = new String(iterator.next().message());
if(message.contains("xxxx")){
System.out.println(message);
}
}
}
}
}
跨集群同步——mirror maker
如果公司有云环境,可能还涉及到多个集群环境数据的同步。那么官方提供了一个mirrormaker的工具,它其实就是封装了一个consumer和一个producer,把一个集群的数据,直接消费到另一个集群。
代码可以参考github:
https://github.com/apache/kafka/blob/trunk/core/src/main/scala/kafka/tools/MirrorMaker.scala
文档可以参考:
https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=27846330
我这里介绍一下它的用法,首先启动的脚本,官方已经封装到kafka解压后的bin目录下。
主要用到了kafka-run-class.sh,kafka-mirror-maker.sh脚本其实就是对它的一层封装:
exec $(dirname $0)/kafka-run-class.sh kafka.tools.MirrorMaker $@
然后需要创建两个配置文件,分别是consumer的配置文件和producer的配置文件:
consumer.properties
zookeeper.connect=xxxx:2181
group.id=test-mirror
zookeeper.connect是想要消费的集群的zk地址,group.id是消费者组的id,一定别跟其他的mirrormaker搞到一起哈![这就是我开篇遇到的问题原因]。
producer.properties
zk.connect=localhost:2181
bootstrap.servers=localhost:9092
zk.connect是消息即将存储的zk地址, bootstrap.servers是消息即将存储的broker地址。(我试过没有bootstrap.servers的话,会报错)
然后执行下面的命令,启动脚本即可:
./kafka-run-class.sh kafka.tools.MirrorMaker --consumerrties --producer.config producer.properties --whitelist test --num.streams 2
num.streams控制了消费者的个数,必须要设置的。
这样就开启了mirrormaker服务,可以看到第一个集群的所有消息,都同步到了第二个集群。
控制台主要功能介绍
控制台可以安装kafka-manager进行监控与管理,安装的教程可以参考:
http://blog.csdn.net/lsshlsw/article/details/47300145
集群概况

主题


broker

消费者


参考
Kafka的基本概念与安装指南(单机+集群同步)的更多相关文章
- 阿里云构建Kafka单机集群环境
简介 在一台ECS阿里云服务器上构建Kafa单个集群环境需要如下的几个步骤: 服务器环境 JDK的安装 ZooKeeper的安装 Kafka的安装 1. 服务器环境 CPU: 1核 内存: 2048 ...
- Redis基本概念、基本使用与单机集群部署
1. Redis基础 1.1 Redis概述 Redis是一个开源.先进的key-value存储,并用于构建高性能.可扩展的应用程序的完美解决方案. Redis从它的许多竞争继承了三个主要特点: ...
- 顶级Apache Kafka术语和概念
1.卡夫卡术语 基本上,Kafka架构 包含很少的关键术语,如主题,制作人,消费者, 经纪人等等.要详细了解Apache Kafka,我们必须首先理解这些关键术语.因此,在本文“Kafka术语”中, ...
- 玩转nodeJS系列:使用原生API实现简单灵活高效的路由功能(支持nodeJs单机集群),nodeJS本就应该这样轻快
前言: 使用nodeJS原生API实现快速灵活路由,方便与其他库/框架进行整合: 1.原生API,简洁高效的轻度封装,加速路由解析,nodeJS本就应该这样轻快 2.不包含任何第三方库/框架,可以灵活 ...
- zookeeper单机集群搭建
1. 下载zookeeper 参考官方文档下载一节:https://zookeeper.apache.org/doc/current/zookeeperStarted.html#sc_Download ...
- Kafka 跨集群同步方案(转)
来自:http://tangzhaohui.net/524 Kafka 跨集群同步方案——Kafka内置的MirrorMaker工具 该方案解决Kafka跨集群同步.创建Kafka集群镜像等相关问题, ...
- Kafka跨集群同步工具——MirrorMaker
MirrorMaker是为解决Kafka跨集群同步.创建镜像集群而存在的.下图展示了其工作原理.该工具消费源集群消息然后将数据又一次推送到目标集群. watermark/2/text/aHR0cDov ...
- RabbitMQ入门教程(十四):RabbitMQ单机集群搭建
原文:RabbitMQ入门教程(十四):RabbitMQ单机集群搭建 版权声明:本文为博主原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明. 本文链接:https://b ...
- Presto单机/集群模式安装笔记
Presto单机/集群模式安装笔记 一.安装环境 二.安装步骤 三.集群模式安装: 3.1 集群模式修改配置部分 3.1.1 coordinator 节点配置. Node172配置 3.1.2 nod ...
随机推荐
- Yacc 与 Lex 快速入门(词法分析和语法分析)
我们知道,高级语言,一般的如c,Java等是不能直接运行的,它们需要经过编译成机器认识的语言.即编译器的工作. 编译器工作流程:词法分析.语法分析.语义分析.IR(中间代码,intermediate ...
- Linux学习之在搭建java开发环境
首先,在官网上下载你需要的JDK 然后 解压包 tar -zxvf 包名 配置环境变量 vim /etc/profile 如果权限不够,就使用sudo vim /etc/profile 在profi ...
- 组件嵌套时报:Component template should contain exactly one root element. If you are using v-if on multiple elements, use v-else-if to chain them instead.
在组件嵌套的过程中,报了一个错误: 这里报错的原因是:vue的组件(模板)只能有一个根节点,即.vue文件中的<template>标签下只能有一个子元素. 因此,建议大家在写.vue组件的 ...
- request和response中文乱码问题后台处理办法
request接收参数的中文乱码的处理: GET: 方法一:使用String的构造方法: new String(request.getParameter("传过来的name").g ...
- Docker笔记四:Elasticsearch实例部署
在运行或启动elasticsearch容器前,先在宿主机上执行 sysctl -w vm.max_map_count=262144: 解决" max virtual memory areas ...
- Chrome development tools学习笔记(5)
调试JavaScript 随着如今JavaScript应用的越来越广泛,在面对前端工作的时候,开发人员须要强大的调试工具来高速有效地解决这个问题.我们文章的主角,Chrome DevTools就提供了 ...
- CS:APP3e 深入理解计算机系统_3e Datalab实验
由于http://csapp.cs.cmu.edu/并未完全开放实验,很多附加实验做不了,一些环境也没办法搭建,更没有标准答案.做了这个实验的朋友可以和我对对答案:) 实验内容和要求可在http:// ...
- 这么说吧,java线程池的实现原理其实很简单
好处 : 线程是稀缺资源,如果被无限制的创建,不仅会消耗系统资源,还会降低系统的稳定性,合理的使用线程池对线程进行统一分配.调优和监控,有以下好处: 1.降低资源消耗: 2.提高响应速度: 3.提高线 ...
- 前后端分离ueditor富文本编辑器的使用-Java版本
最近在写一个自己的后台管理系统(主要是写着玩的,用来熟悉后端java的知识,目前只是会简单的写点接口),想在项目中编写一个发布新闻文章的功能,想到了使用百度的ueditor富文本编辑器,网上找了很多j ...
- gulp实现公共html代码复用
在开发网站的时候,尤其是类似于官网这样的项目,顶部都会有一个导航栏,底部会有一些其他信息,而这两个部分在每一个页面都是有的.我们不可能在每个html页面都写一遍,这样也不便后期维护等操作,所以可以把顶 ...