kafka+flume+HDFS日志采集项目框架

1，项目图如下：

2，实现过程

启动HDFS：

sbin/start-dfs.sh

启动zookeeper（三台）：

 bin/zkServer.sh start

启动kafka（三台）：

root@Ubuntu-:/usr/local/kafka# bin/kafka-server-start.sh config/server.properties >logs/kafka3.log >&

在131中创建access的topic：

root@Ubuntu-:/usr/local/kafka# bin/kafka-topics.sh --create --topic access --zookeeper 192.168.22.131:,192.168.22.132:,192.168.22.135: --replication-factor  --partitions

查看创建的主题：

root@Ubuntu-:/usr/local/kafka# bin/kafka-topics.sh --list --zookeeper localhost:

131启动flume：

bin/flume-ng agent --conf conf/ --conf-file conf/access.conf  --name a1 -Dflume.root.logger=INFO,console &

内容：

#定义各个模块

a1.sources = exec

a1.sinks = hdfs_sink kafka_sink

a1.channels = hdfs_channel kafka_channel

#配置 exec source

a1.sources.exec.type = exec

a1.sources.exec.command = tail -F /usr/local/apache-flume/logs/hu.log

#配置拦截器

a1.sources.exec.interceptors = i1

a1.sources.exec.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

# 配置 channel

a1.channels.hdfs_channel.type = memory

a1.channels.hdfs_channel.capacity =

a1.channels.hdfs_channel.transactionCapacity = 

a1.channels.kafka_channel.type = memory

a1.channels.kafka_channel.capacity =

a1.channels.kafka_channel.transactionCapacity = 

# 配置hdfs sink

a1.sinks.hdfs_sink.type = hdfs

a1.sinks.hdfs_sink.hdfs.path =hdfs://Ubuntu-1:9000/source/%{type}/%Y%m%d

a1.sinks.hdfs_sink.hdfs.filePrefix = events-

a1.sinks.hdfs_sink.hdfs.fileType = DataStream

#a1.sinks.hdfs_sink.hdfs.fileType = CompressedStream

#a1.sinks.hdfs_sink.hdfs.codeC = gzip

#不按照条数生成文件

a1.sinks.hdfs_sink.hdfs.rollCount =

#HDFS上的文件达到64M时生成一个文件

a1.sinks.hdfs_sink.hdfs.rollSize =

a1.sinks.hdfs_sink.hdfs.rollInterval =

a1.sinks.hdfs_sink.hdfs.batchSize=

# 配置 kafka sink

a1.sinks.kafka_sink.type = org.apache.flume.sink.kafka.KafkaSink

a1.sinks.kafka_sink.topic = access

a1.sinks.kafka_sink.brokerList = 192.168.22.131:,192.168.22.132:,192.168.22.135:

a1.sinks.kafka_sink.requiredAcks =

a1.sinks.kafka_sink.batchSize = 

# 绑定三种组件的关系

a1.sources.exec.channels = hdfs_channel kafka_channel

a1.sinks.hdfs_sink.channel = hdfs_channel

a1.sinks.kafka_sink.channel = kafka_channel

132中创建kafka的producer：

root@Ubuntu-:/usr/local/kafka# bin/kafka-console-consumer.sh --zookeeper 192.168.22.131:,192.168.22.132:,192.168.22.135: --topic access

kafka+flume+HDFS日志采集项目框架的更多相关文章

项目01-flume、kafka与hdfs日志流转
项目01-flume.kafka与hdfs日志流转 1.启动kafka集群 $>xkafka.sh start 3.创建kafka主题 kafka-topics.sh --zookeeper s ...
大数据软件安装之Flume（日志采集）
一.安装地址 1) Flume官网地址 http://flume.apache.org/ 2)文档查看地址 http://flume.apache.org/FlumeUserGuide.html 3) ...
基于Flume+LOG4J+Kafka的日志采集架构方案
本文将会介绍如何使用 Flume.log4j.Kafka进行规范的日志采集. Flume 基本概念 Flume是一个完善.强大的日志采集工具,关于它的配置,在网上有很多现成的例子和资料,这里仅做简单说 ...
flink---实时项目--day02-----1. 解析参数工具类 2. Flink工具类封装 3. 日志采集架构图 4. 测流输出 5. 将kafka中数据写入HDFS 6 KafkaProducer的使用 7 练习
1. 解析参数工具类(ParameterTool) 该类提供了从不同数据源读取和解析程序参数的简单实用方法,其解析args时,只能支持单只参数. 用来解析main方法传入参数的工具类 public c ...
日志采集框架Flume
前言在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集.结果数据导出.任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中 ...
日志采集框架 Flume
日志采集框架 Flume 1 概述 Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到H ...
Flume日志采集框架的使用
文章作者:foochane 原文链接:https://foochane.cn/article/2019062701.html Flume日志采集框架安装和部署 Flume运行机制采集静态文件到h ...
一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F ...
01_日志采集框架Flume简介及其运行机制
离线辅助系统概览: 1.概述: 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集.结果数据导出. 任务调度等不可或缺的辅助系统,而这些辅助 ...

随机推荐

MSSQL如何查看当前数据库的连接数【转】
- [SQL Server]版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明 http://ai51av.blogbus.com/logs/52955622.html 如果我们发布 ...
Spring实战第九章学习笔记————保护Web应用
保护Web应用在这一章我们将使用切面技术来探索保护应用程序的方式.不过我们不必自己开发这些切面----我们将使用Spring Security,一种基于Spring AOP和Servlet规范的Fi ...
5.爬虫 requests库讲解高级用法
0.文件上传 import requests files = {'file': open('favicon.ico', 'rb')} response = requests.post("ht ...
C#非托管跨线程委托调试
使用C#调用mingw的so文件,拿视频数据回wpf的界面进行显示,注册了回调函数.C++在调用回调函数时遇到了委托被回收的问题,提示:“类型的已垃圾回收委托进行了回调.这可能会导致应用程序崩溃.损坏 ...
【转】V8 之旅：垃圾回收器
垃圾回收器是一把十足的双刃剑.其好处是可以大幅简化程序的内存管理代码,因为内存管理无需程序员来操作,由此也减少了(但没有根除)长时间运转的程序的内存泄漏.对于某些程序员来说,它甚至能够提升代码的性能. ...
Centos7安装GUI桌面
2018-03-02 21:37:48 Centos7-1708成功 yum -y groupinstall "GNOME Desktop"
golang and intellij
有一个项目,混合了java和go,需要在intellij中安装go的插件. OK,网上的信息简直混乱不堪,两个流派,一个流派就是装插件,一个流派就是编译插件,各种折腾,还是安装不了,谁知柳暗花明又一村 ...
算法(9)Find the Duplicate Number
一个数组中的长度是n+1,里面存放的数字大小的范围是[1,n],根据鸽巢原理,所以里面肯定有重复的数字,现在预定重复的数字就1个,让你找到这个数字! http://bookshadow.com/web ...
Redis学习笔记之基础篇
Redis是一款开源的日志型key-value数据库,目前主要用作缓存服务器使用. Redis官方并没有提供windows版本的服务器,不过微软官方开发了基于Windows的Redis服务器Micro ...
【python】python各种类型转换-int,str,char,float,ord,hex,oct等
[python] int(x [,base ]) 将x转换为一个整数 long(x [,base ]) 将x转换为一个长整数 float(x ) ...

kafka+flume+HDFS日志采集项目框架

1，项目图如下：

2， 实现过程

kafka+flume+HDFS日志采集项目框架的更多相关文章

随机推荐

热门专题

2，实现过程