Kafka系列四 flume-kafka-storm整合

flume-kafka-storm

flume读取日志数据，然后发送至kafka。

1、flume配置文件

agent.sources = kafkaSource

agent.channels = kafkaChannel

agent.sinks = kafkaSink

agent.sources.kafkaSource.type = exec

agent.sources.kafkaSource.command = tail -F /home/hadoop/kafkaData/kafka.log

agent.sources.kafkaSource.channels = kafkaChannel

agent.sinks.kafkaSink.channel = kafkaChannel

agent.sinks.kafkaSink.type = org.apache.flume.sink.kafka.KafkaSink

agent.sinks.kafkaSink.topic = stormTopic

agent.sinks.kafkaSink.brokerList = 192.168.25.151:,192.168.25.152:,192.168.25.153:

agent.sinks.kafkaSink.kafka.flumeBatchSize =

agent.sinks.kafkaSink.kafka.producer.acks =

agent.sinks.kafkaSink.kafka.producer.linger.ms =

agent.sinks.kafkaSink.kafka.producer.compression.type = snappy

agent.sinks.kafkaSink.serializer.class=kafka.serializer.StringEncoder 

agent.channels.kafkaChannel.type=memory

agent.channels.kafkaChannel.capacity=

agent.channels.kafkaChannel.transactionCapacity=

2、启动flume

bin/flume-ng agent --conf-file  conf/flume-kafka.conf -c conf/ --name agent -Dflume.root.logger=DEBUG,console

3、需要在flume机器上修改hosts文件，添加上kafka的主机名和ip的映射。

4、在kafka上创建主题

bin/kafka-topics.sh --create --zookeeper hadoop2: --replication-factor  --partitions  --topic stormTopic

5、模拟生成日志脚本

for((i=;i<=;i++));

do echo "kafka_test-"$i>>/home/hadoop/kafkaData/kafka.log;

done

6、在kafka上开启消费者

bin/kafka-console-consumer.sh --zookeeper hadoop2: --from-beginning --topic stormTopic

至此，flum->kafka的数据流走通。

7、整合Storm，将kafka作为stom的spout，将使用KafkaSpout。

 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

     xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

     <modelVersion>4.0.0</modelVersion>

     <groupId>cn.itcast</groupId>

     <artifactId>kafkaStorm</artifactId>

     <version>0.0.1-SNAPSHOT</version>

     <packaging>jar</packaging>

     <dependencies>

         <!-- https://mvnrepository.com/artifact/org.apache.storm/storm-core -->

         <dependency>

             <groupId>org.apache.storm</groupId>

             <artifactId>storm-core</artifactId>

             <version>1.2.1</version>

             <scope>provided</scope>

         </dependency>

         <dependency>

             <groupId>org.apache.storm</groupId>

             <artifactId>storm-kafka</artifactId>

             <version>1.2.1</version>

         </dependency>

         <dependency>

             <groupId>org.apache.kafka</groupId>

             <artifactId>kafka_2.12</artifactId>

             <version>1.0.0</version>

             <exclusions>

                 <exclusion>

                     <groupId>org.slf4j</groupId>

                     <artifactId>slf4j-log4j12</artifactId>

                 </exclusion>

             </exclusions>

         </dependency>

         <!-- https://mvnrepository.com/artifact/org.apache.kafka/kafka-clients -->

         <dependency>

             <groupId>org.apache.kafka</groupId>

             <artifactId>kafka-clients</artifactId>

             <version>1.0.0</version>

         </dependency>

     </dependencies>

     <build>

         <plugins>

             <!-- 资源文件拷贝插件 -->

             <plugin>

                 <groupId>org.apache.maven.plugins</groupId>

                 <artifactId>maven-resources-plugin</artifactId>

                 <version>2.7</version>

                 <configuration>

                     <encoding>UTF-8</encoding>

                 </configuration>

             </plugin>

             <!-- java编译插件 -->

             <plugin>

                 <groupId>org.apache.maven.plugins</groupId>

                 <artifactId>maven-compiler-plugin</artifactId>

                 <version>3.2</version>

                 <configuration>

                     <source>1.8</source>

                     <target>1.8</target>

                     <encoding>UTF-8</encoding>

                 </configuration>

             </plugin>

             <plugin>

                 <groupId>org.apache.maven.plugins</groupId>

                 <artifactId>maven-jar-plugin</artifactId>

                 <version>2.4</version>

             </plugin>

             <plugin>

                 <groupId>org.apache.maven.plugins</groupId>

                 <artifactId>maven-assembly-plugin</artifactId>

                 <version>2.4</version>

                 <configuration>

                     <descriptorRefs>

                         <descriptorRef>jar-with-dependencies</descriptorRef>

                     </descriptorRefs>

                     <archive>

                         <manifest>

                             <mainClass>cn.itcast.kafka.Kafka2Storm</mainClass>

                         </manifest>

                     </archive>

                 </configuration>

                 <executions>

                     <execution>

                         <id>make-assembly</id>

                         <phase>package</phase>

                         <goals>

                             <goal>single</goal>

                         </goals>

                     </execution>

                 </executions>

             </plugin>

         </plugins>

     </build>

 </project>

pom.xml

 package cn.itcast.kafka;

 import org.apache.storm.Config;

 import org.apache.storm.LocalCluster;

 import org.apache.storm.generated.AlreadyAliveException;

 import org.apache.storm.generated.AuthorizationException;

 import org.apache.storm.generated.InvalidTopologyException;

 import org.apache.storm.kafka.BrokerHosts;

 import org.apache.storm.kafka.KafkaSpout;

 import org.apache.storm.kafka.SpoutConfig;

 import org.apache.storm.kafka.ZkHosts;

 import org.apache.storm.topology.TopologyBuilder;

 public class Kafka2Storm {

     public static void main(String[] args)

             throws AlreadyAliveException, InvalidTopologyException, AuthorizationException {

         TopologyBuilder topologyBuilder = new TopologyBuilder();

         BrokerHosts hosts = new ZkHosts("192.168.25.142:2181,192.168.25.143:2181,192.168.25.144:2181");

         /**

          * hosts:用以获取Kafka broker和partition的信息,在zk上获取，此处填写zk的地址

          * topic:从哪个topic读取消息 zkRoot:进度信息记录于zookeeper的哪个路径下

          * id:进度记录的id，想要一个新的Spout读取之前的记录，应把它的id设为跟之前的一样

          */

         SpoutConfig spoutConfig = new SpoutConfig(hosts, "stormTopic", "/mykafka", "kafkaSpout");

         KafkaSpout kafkaSpout = new KafkaSpout(spoutConfig);

         topologyBuilder.setSpout("kafkaSpout", kafkaSpout);

         // 将一行行的文本切分成单词

         topologyBuilder.setBolt("valueBolt", new ValueBolt(), 1).shuffleGrouping("kafkaSpout");

         // 启动topology的配置信息

         Config config = new Config();

         // 定义集群分配多少个工作进程来执行这个topology

         config.setNumWorkers(3);

          LocalCluster localCluster = new LocalCluster();

          localCluster.submitTopology("kafkaStomrTopology", config,

          topologyBuilder.createTopology());

         // 集群模式提交topology

 //        StormSubmitter.submitTopologyWithProgressBar("kafkaStomrTopology", config, topologyBuilder.createTopology());

     }

 }

Kafka2Storm.java

 package cn.itcast.kafka;

 import java.util.Map;

 import org.apache.storm.task.OutputCollector;

 import org.apache.storm.task.TopologyContext;

 import org.apache.storm.topology.OutputFieldsDeclarer;

 import org.apache.storm.topology.base.BaseRichBolt;

 import org.apache.storm.tuple.Tuple;

 import org.slf4j.Logger;

 import org.slf4j.LoggerFactory;

 public class ValueBolt extends BaseRichBolt {

     Logger logger = LoggerFactory.getLogger(ValueBolt.class);

     /**

      *

      */

     private static final long serialVersionUID = 1L;

     @Override

     public void prepare(Map stormConf, TopologyContext context, OutputCollector collector) {

         // TODO Auto-generated method stub

     }

     @Override

     public void execute(Tuple input) {

         logger.info(new String((byte[]) input.getValue(0)));

     }

     @Override

     public void declareOutputFields(OutputFieldsDeclarer declarer) {

         // TODO Auto-generated method stub

     }

 }

ValueBolt.java

Kafka系列四 flume-kafka-storm整合的更多相关文章

kafka系列四、kafka架构原理、高可靠性存储分析及配置优化
一.概述 Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用.目前越来越多的开源分布式处理系统如Cl ...
Kafka系列1：Kafka概况
Kafka系列1:Kafka概况 Kafka是当前分布式系统中最流行的消息中间件之一,凭借着其高吞吐量的设计,在日志收集系统和消息系统的应用场景中深得开发者喜爱.本篇就聊聊Kafka相关的一些知识点. ...
大数据系列之Flume+kafka 整合
相关文章: 大数据系列之Kafka安装大数据系列之Flume--几种不同的Sources 大数据系列之Flume+HDFS 关于Flume 的一些核心概念: 组件名称功能介绍 Agent ...
hadoop 之 kafka 安装与 flume -> kafka 整合
62-kafka 安装 : flume 整合 kafka 一.kafka 安装 1.下载 http://kafka.apache.org/downloads.html 2. 解压 tar -zxvf ...
kafka系列三、Kafka三款监控工具比较
转载原文:http://top.jobbole.com/31084/ 通过研究,发现主流的三种kafka监控程序分别为: Kafka Web Conslole Kafka Manager KafkaO ...
kafka系列一、kafka安装及部署、集群搭建
一.环境准备操作系统:Cent OS 7 Kafka版本:kafka_2.10 Kafka官网下载:请点击 JDK版本:1.8.0_171 zookeeper-3.4.10 二.kafka安装配置 ...
Apache Kafka系列(四) 多线程Consumer方案
Apache Kafka系列(一) 起步 Apache Kafka系列(二) 命令行工具(CLI) Apache Kafka系列(三) Java API使用 Apache Kafka系列(四) 多线程 ...
kafka系列十、kafka常用管理命令
一.Topic管理 1.创建topic kafka-topics.sh --zookeeper 47.52.199.52:2181 --create --topic test-15 --replica ...
kafka系列九、kafka事务原理、事务API和使用场景
一.事务场景最简单的需求是producer发的多条消息组成一个事务这些消息需要对consumer同时可见或者同时不可见 . producer可能会给多个topic,多个partition发消息,这些 ...

随机推荐

inclusion_tag 界面的嵌套和渲染
后端的html渲染到前端: 如果后端直接定义的是html标签,传到前端的时候因为浏览器的安全机制就会直接渲染成字符串如果想要渲染成需要的标签,就需要在后端用make_save()进行包裹,或者直接在前 ...
model.object对象查询过滤、增删改、Q
vm.objects.all()[:10] #获得前10个对象,不支持负索引 vm.objects.get(name='vmname') vm.objects.filter(name='vmname' ...
【MSSQL教程】#001 整体思维导图
整个MSSQL体系的一个思维导图,方便理解整个MSSQL需要学习那些方面的知识.
JVM源码分析之堆外内存完全解读
JVM源码分析之堆外内存完全解读寒泉子 2016-01-15 17:26:16 浏览6837 评论0 阿里技术协会摘要: 概述广义的堆外内存说到堆外内存,那大家肯定想到堆内内存,这也是我们 ...
kafka for Windows
1,保证,安装好java环境,zookeeper,并且运行zookeeper. 2,下载kafka,并解压到磁盘下载链接http://mirrors.hust.edu.cn/apache/kafka ...
JavaScript验证字符串只能包含数字或者英文字符的代码实例
验证字符串只能包含数字或者英文字符的代码实例:本章节分享一段代码实例,它实现了验证字符串内容是否只包含英文字符或者数字.代码实例如下: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 ...
web应用安全发展与介绍
安全与安全圈的认识中国黑客的发展过程:1990年代初,部分人开始研究黑客技术 1997-1999年,黑客团队涌现,进入黄金时代, 21世纪初,黑客工具傻瓜化,门槛降低,黑客精神不在… 圈内熟知的安全 ...
洛谷 P1251 餐巾计划问题（线性规划网络优化）【费用流】
(题外话:心塞...大部分时间都在debug,拆点忘记加N,总边数算错,数据类型标错,字母写错......) 题目链接:https://www.luogu.org/problemnew/show/P1 ...
Sequelize-nodejs-1-getting started
Sequelize is a promise-based ORM for Node.js v4 and up. It supports the dialects PostgreSQL, MySQL, ...
SRcnn:神经网络重建图片的开山之作
% ========================================================================= % Test code for Super-Re ...

Kafka系列四 flume-kafka-storm整合

flume-kafka-storm

Kafka系列四 flume-kafka-storm整合的更多相关文章

随机推荐

热门专题