大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令

一、kafka常用命令

　　1.创建topic

bin/kafka-topics.sh --create --topic topic_1 --partitions  --replication-factor  --zookeeper mini1:

　　// 如果配置了PATH可以省略相关命令路径，相关命令参数暂不深入，字面意思也可以大概推断。后续给出完整参数参考。

　　2.查看所有topic

bin/kafka-topics.sh --list --zookeeper  mini1:

　　3.生产者发送消息（通常情况下有上游源生产）

bin/kafka-console-producer.sh --broker-list mini1: --topic topic_1

　　4.消费者消费消息

bin/kafka-console-consumer.sh --zookeeper mini1: --from-beginning --topic topic_1

　　// 可以在Mini2上消费，是分布式的

　　5.删除topic

bin/kafka-topics.sh --delete --zookeeper mini1: --topic topic_1

需要server.properties中设置delete.topic.enable=true否则只是标记删除或者直接重启。

　　6.查看topic详情

bin/kafka-topics.sh --topic topic_1 --describe --zookeeper mini1:

　　可以使用kafkamanager来简化一些管理

二、JavaAPI

　　1.引入依赖

<!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka -->

<dependency>

    <groupId>org.apache.kafka</groupId>

    <artifactId>kafka_2.12</artifactId>

    <version>0.11.0.2</version>

</dependency>

　　2.基本topic的操作

　　　　基本对应命令：

　　　　　　参考：https://www.cnblogs.com/huxi2b/p/6592862.html

　　3.生产者与消费者

　　　　以下的很多配置，都在kafka的3个配置里，详情参考入门篇。

　　　　生产者：

package cn.itcast.storm.kafka.simple;

import kafka.javaapi.producer.Producer;

import kafka.producer.KeyedMessage;

import kafka.producer.ProducerConfig;

import java.util.Properties;

import java.util.UUID;

/**

 * 这是一个简单的Kafka producer代码

 * 包含两个功能:

 * 1、数据发送

 * 2、数据按照自定义的partition策略进行发送

 *

 *

 * KafkaSpout的类

 */

public class KafkaProducerSimple {

    public static void main(String[] args) {

        /**

         * 1、指定当前kafka producer生产的数据的目的地

         *  创建topic可以输入以下命令，在kafka集群的任一节点进行创建。

         *  bin/kafka-topics.sh --create --zookeeper zk01:2181 --replication-factor 1 --partitions 1 --topic test

         */

        String TOPIC = "orderMq";

        /**

         * 2、读取配置文件

         */

        Properties props = new Properties();

        /*

         * key.serializer.class默认为serializer.class

         */

        props.put("serializer.class", "kafka.serializer.StringEncoder");

        /*

         * kafka broker对应的主机，格式为host1:port1,host2:port2

         */

        props.put("metadata.broker.list", "kafka01:9092,kafka02:9092,kafka03:9092");

        /*

         * request.required.acks,设置发送数据是否需要服务端的反馈,有三个值0,1,-1

         * 0，意味着producer永远不会等待一个来自broker的ack，这就是0.7版本的行为。

         * 这个选项提供了最低的延迟，但是持久化的保证是最弱的，当server挂掉的时候会丢失一些数据。

         * 1，意味着在leader replica已经接收到数据后，producer会得到一个ack。

         * 这个选项提供了更好的持久性，因为在server确认请求成功处理后，client才会返回。

         * 如果刚写到leader上，还没来得及复制leader就挂了，那么消息才可能会丢失。

         * -1，意味着在所有的ISR都接收到数据后，producer才得到一个ack。

         * 这个选项提供了最好的持久性，只要还有一个replica存活，那么数据就不会丢失

         */

        props.put("request.required.acks", "1");

        /*

         * 可选配置，如果不配置，则使用默认的partitioner partitioner.class

         * 默认值：kafka.producer.DefaultPartitioner

         * 用来把消息分到各个partition中，默认行为是对key进行hash。

         */

        props.put("partitioner.class", "cn.itcast.storm.kafka.MyLogPartitioner");

//        props.put("partitioner.class", "kafka.producer.DefaultPartitioner");

        /**

         * 3、通过配置文件，创建生产者

         */

        Producer<String, String> producer = new Producer<String, String>(new ProducerConfig(props));

        /**

         * 4、通过for循环生产数据

         */

        for (int messageNo = 1; messageNo < 100000; messageNo++) {

            /**

             * 5、调用producer的send方法发送数据

             * 注意：这里需要指定 partitionKey，用来配合自定义的MyLogPartitioner进行数据分发

             */

            producer.send(new KeyedMessage<String, String>(TOPIC, messageNo + "", "appid" + UUID.randomUUID() + "itcast"));

        }

    }

}

　　消费者：

package cn.itcast.storm.kafka.simple;

import kafka.consumer.Consumer;

import kafka.consumer.ConsumerConfig;

import kafka.consumer.ConsumerIterator;

import kafka.consumer.KafkaStream;

import kafka.javaapi.consumer.ConsumerConnector;

import kafka.message.MessageAndMetadata;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import java.util.Properties;

import java.util.concurrent.ExecutorService;

import java.util.concurrent.Executors;

public class KafkaConsumerSimple implements Runnable {

    public String title;

    public KafkaStream<byte[], byte[]> stream;

    public KafkaConsumerSimple(String title, KafkaStream<byte[], byte[]> stream) {

        this.title = title;

        this.stream = stream;

    }

    @Override

    public void run() {

        System.out.println("开始运行 " + title);

        ConsumerIterator<byte[], byte[]> it = stream.iterator();

        /**

         * 不停地从stream读取新到来的消息，在等待新的消息时，hasNext()会阻塞

         * 如果调用 `ConsumerConnector#shutdown`，那么`hasNext`会返回false

         * */

        while (it.hasNext()) {

            MessageAndMetadata<byte[], byte[]> data = it.next();

            String topic = data.topic();

            int partition = data.partition();

            long offset = data.offset();

            String msg = new String(data.message());

            System.out.println(String.format(

                    "Consumer: [%s],  Topic: [%s],  PartitionId: [%d], Offset: [%d], msg: [%s]",

                    title, topic, partition, offset, msg));

        }

        System.out.println(String.format("Consumer: [%s] exiting ...", title));

    }

    public static void main(String[] args) throws Exception{

        Properties props = new Properties();

        props.put("group.id", "dashujujiagoushi");

        props.put("zookeeper.connect", "zk01:2181,zk02:2181,zk03:2181");

        props.put("auto.offset.reset", "largest");

        props.put("auto.commit.interval.ms", "1000");

        props.put("partition.assignment.strategy", "roundrobin");

        ConsumerConfig config = new ConsumerConfig(props);

        String topic1 = "orderMq";

        String topic2 = "paymentMq";

        //只要ConsumerConnector还在的话，consumer会一直等待新消息，不会自己退出

        ConsumerConnector consumerConn = Consumer.createJavaConsumerConnector(config);

        //定义一个map

        Map<String, Integer> topicCountMap = new HashMap<>();

        topicCountMap.put(topic1, 3);

        //Map<String, List<KafkaStream<byte[], byte[]>> 中String是topic， List<KafkaStream<byte[], byte[]>是对应的流

        Map<String, List<KafkaStream<byte[], byte[]>>> topicStreamsMap = consumerConn.createMessageStreams(topicCountMap);

        //取出 `kafkaTest` 对应的 streams

        List<KafkaStream<byte[], byte[]>> streams = topicStreamsMap.get(topic1);

        //创建一个容量为4的线程池

        ExecutorService executor = Executors.newFixedThreadPool(3);

        //创建20个consumer threads

        for (int i = 0; i < streams.size(); i++)

            executor.execute(new KafkaConsumerSimple("消费者" + (i + 1), streams.get(i)));

    }

}

　　自定义分区：

package cn.itcast.storm.kafka;

import kafka.producer.Partitioner;

import kafka.utils.VerifiableProperties;

import org.apache.log4j.Logger;

public class MyLogPartitioner implements Partitioner {

    private static Logger logger = Logger.getLogger(MyLogPartitioner.class);

    public MyLogPartitioner(VerifiableProperties props) {

    }

    public int partition(Object obj, int numPartitions) {

        return Integer.parseInt(obj.toString())%numPartitions;

//        return 1;

    }

}

　　很明显，上面的代码徒手写是很费劲的，这个时候，就可以请出我们的KafkaSpout来整合storm了！

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令的更多相关文章

大数据入门第十七天——storm上游数据源之kafka详解（一）入门与集群安装
一.概述 1.kafka是什么根据标题可以有个概念:kafka是storm的上游数据源之一,也是一对经典的组合,就像郭德纲和于谦根据官网:http://kafka.apache.org/intro ...
大数据入门第十七天——storm上游数据源之kafka详解（三）其他问题
一.kafka文件存储机制 1.topic存储在Kafka文件存储中,同一个topic下有多个不同partition,每个partition为一个目录,partiton命名规则为topic名称+有序 ...
大数据入门第十六天——流式计算之storm详解（一）入门与集群安装
一.概述今天起就正式进入了流式计算.这里先解释一下流式计算的概念离线计算离线计算:批量获取数据.批量传输数据.周期性批量计算数据.数据展示代表技术:Sqoop批量导入数据.HDFS批量存储数据 ...
大数据入门第十六天——流式计算之storm详解（二）常用命令与wc实例
一.常用命令 1.提交命令提交任务命令格式:storm jar [jar路径] [拓扑包名.拓扑类名] [拓扑名称] torm jar examples/storm-starter/storm-st ...
大数据入门第八天——MapReduce详解（三）MR的shuffer、combiner与Yarn集群分析
/mr的combiner /mr的排序 /mr的shuffle /mr与yarn /mr运行模式 /mr实现join /mr全局图 /mr的压缩今日提纲一.流量汇总排序的实现 1.需求对日志数据 ...
大数据入门第二十天——scala入门（一）入门与配置
一.概述 1.什么是scala Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性.Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序. ...
大数据入门第十九天——推荐系统与mahout（一）入门与概述
一.推荐系统概述为了解决信息过载和用户无明确需求的问题,找到用户感兴趣的物品,才有了个性化推荐系统.其实,解决信息过载的问题,代表性的解决方案是分类目录和搜索引擎,如hao123,电商首页的分类目录 ...
大数据入门第七天——MapReduce详解（一）入门与简单示例
一.概述 1.map-reduce是什么 Hadoop MapReduce is a software framework for easily writing applications which ...
大数据入门第三天——基础补充与ActiveMQ
一.多线程基础回顾先导知识在基础随笔篇:http://www.cnblogs.com/jiangbei/p/6664555.html 以下此部分以补充为主 1.概念进程:进行中的程序,内存中有独立 ...

随机推荐

借助预编译防止sql注入攻击
可重用的sql操作类 public ResultSet doQuery(String sql,Object[] params){ ResultSet rs = null; conn = this.ge ...
通过 Cobalt Strike 利用 ms14-068
拓扑图攻击者(kali) 位于 192.168.245.0/24 网段,域环境位于 192.168.31.0/24 网段. 域中有一台 win7 有两张网卡,可以同时访问两个网段,以这台机器作为跳板 ...
RecyclerView-- 侧滑删除和拖动排序
实现这么个功能我们不需要再去继承RecyclerView,只需要去了解ItemTouchHelper这个类即可,接下来我们就去看看都有些什么 ItemTouchHelper.Callback 默认需要 ...
新知食APP架构分析--北京识物科技有限公司旗下产品
俗话说不打无准备之仗,这次真是有点懵逼了,建议大家去面试的时候,尤其是去小型互联网公司的时候,如果你想比其他人有竞争力,那么你要研究一下当前他的公司正在开发产品,他们的业务类型是什么样的,比如他们公司 ...
MAC安装了mumu安卓模拟器，但无法检测到该模拟器
1.adb devices 看不到模拟器 2.adb connect 127.0.0.1:5555 3.adb kill-server 没有报错,即成功 4. adb start-server ...
SQL Server复制入门(二)----复制的几种模式（转载）
简介本系列文章的上一篇对复制是什么做了一个概述.本篇文章根据发布服务器,分发服务器和订阅服务器的组织方式和复制类型来讲述常用复制的几种模式. 模式的选择选择复制的模式取决于多个方面.首先需要考虑具体的 ...
Linux系统之TroubleShooting（启动故障排除）
尽管Linux系统非常强大,稳定,但是我们在使用过程当中,如果人为操作不当,仍然会影响系统,甚至可能使得系统无法开机,无法运行服务等等各种问题.那么这篇博文就总结一下一些常见的故障排除方法,但是不可能 ...
Sql Server2008R2下载地址
ed2k://%7Cfile%7Ccn_sql_server_2008_r2_enterprise_x86_x64_ia64_dvd_522233.iso%7C4662884352%7C1DB0252 ...
teradata 数据定义
teradata 数据定义创建表的可选项是否允许记录重复 set 不允许记录重复 multiset 允许记录重复数据保护 fallback fallback 使用fallbac ...
unknown host www.baidu.com 解决方法
今晚一开机发现无法更新yum了,本机是连着wife的,咋无法更新呢,作为小白,一脸懵逼.于是ping了一下百度,网络不可达.... 于是我查看了一下DNS,发现设置了,于是看了一下物理机的DNS,发现 ...

大数据入门第十七天——storm上游数据源 之kafka详解（二）常用命令

一、kafka常用命令

二、JavaAPI

大数据入门第十七天——storm上游数据源 之kafka详解（二）常用命令的更多相关文章

随机推荐

热门专题

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令

大数据入门第十七天——storm上游数据源之kafka详解（二）常用命令的更多相关文章