Flume 实战，将多台机器日志直接收集到 Kafka

目前我们使用的一个 b 端软件的报错日志分散在集群各处，现在想把它收集到一个地方然后统一丢进 Kafka 提供给下游业务进行消费。

我想到了 flume，之前让同事搭建的这次自己想多了解一些细节于是就开搞了。

首先还是下载 flume 的客户端，这里我使用最新版本 1.9.0

curl -O http://mirrors.tuna.tsinghua.edu.cn/apache/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz

tar -zvf apache-flume-1.9.0-bin.tar.gz

设置需要的 java 环境，注意路径自定义一下，没有 java 自己下个 java8

export JAVA_HOME=/opt/java8

PATH=$PATH:$JAVA_HOME/bin

在 apache-flume-1.9.0-bin/conf 我们可以找到对应的配置文件模版，1.9.0 的模版大概长这样

# The configuration file needs to define the sources,

# the channels and the sinks.

# Sources, channels and sinks are defined per agent,

# in this case called 'agent'

agent.sources = seqGenSrc

agent.channels = memoryChannel

agent.sinks = loggerSink

# For each one of the sources, the type is defined

agent.sources.seqGenSrc.type = seq

# The channel can be defined as follows.

agent.sources.seqGenSrc.channels = memoryChannel

# Each sink's type must be defined

agent.sinks.loggerSink.type = logger

#Specify the channel the sink should use

agent.sinks.loggerSink.channel = memoryChannel

# Each channel's type is defined.

agent.channels.memoryChannel.type = memory

# Other config values specific to each type of channel(sink or source)

# can be defined as well

# In this case, it specifies the capacity of the memory channel

agent.channels.memoryChannel.capacity = 100

我们复制一份当作操作的 conf

mv flume-conf.properties.template flume-conf.properties

从上面的配置文件中我们不难发现

source channel 和 sink 都是单独定义的项，他们都需要配置一个这个配置文件里面生效的名字，以及其他的基于这个名字的配置。

比如这里我的需求是将某文件里面的新增信息读出来包装为事件，先发到 channel 等待处理，我可以配置一个 Taildir Source 来处理这个任务。

flume 为我们准备了非常多的现成的 sources channel 和 sink ，他们都具有不同的功能可以直接提供给我们使用，具体可以参考一下对应版本的官方文档。

这里我们只谈一下这次用到的 Taildir Source

agent.sources = sensorsInvalidRecordsFile

agent.channels = file

agent.sinks = kafkaSink

# For each one of the sources, the type is defined

agent.sources.sensorsInvalidRecordsFile.type = TAILDIR

agent.sources.sensorsInvalidRecordsFile.filegroups = f1

agent.sources.sensorsInvalidRecordsFile.filegroups.f1 = /sa_cluster/logs/sp/extractor/invalid_records

agent.sources.sensorsInvalidRecordsFile.headers.f1.fileName = invalid_records

agent.sources.sensorsInvalidRecordsFile.headers.f1.logType = sensorsInvalidRecords

agent.sources.sensorsInvalidRecordsFile.channels = file
agent.sources.positionFile = ~/.flume/taildir_position.json

头三行先申明一下这里配置的 sources channels sinks 各为什么名字。这里我们可以留意到，所有的组件都被命名为复数，这就意味着我们可以同时申明多个 sources ，只需要将其配置行用空格依次分割即可

agent.sources = s1 s2 s3

这样即可同时生成三个 source。

这里的配置我们指定了一个实例，并且对这个实例上的属性就行初始化。

然后我们继续配置一个 channel 。这里配置一个 file channel，将从 source 里面抽出来的 event 都落盘防止数据丢失。

# Each channel's type is defined.

agent.channels.fileC.type = file

agent.channels.fileC.dataDirs = ~/.flume/file-channel/data

agent.channels.fileC.useDualCheckpoints = true

agent.channels.fileC.backupCheckpointDir = ~/.flume/file-channel/backup_checkpoint

最后我需要定义一个可以将 channel 里面的数据读出来，并且放到 kafka 里面去的 sink。找了一下正好有一个叫 kafka sink 的 sink 可以满足我

可以看到和 apache hadoop 生态结合得比较好的 flume 为什么成为抽取日志的首选，或者优先考虑的对象，就是其对生态的友好和提供足够多的开箱即用的功能。

agent.sinks.kafkaSink.type = org.apache.flume.sink.kafka.KafkaSink

agent.sinks.kafkaSink.channel = fileC

agent.sinks.kafkaSink.kafka.bootstrap.servers = 10.171.97.1:9092, 10.163.13.219:9092, 10.170.249.122:9092

agent.sinks.kafkaSink.topic = flume-topic-sensors-invalid-records

agent.sinks.kafkaSink.producer.acks = -1

agent.sinks.kafkaSink.producer.compression.type = snappy

将 kafka 集群信息配置上去。

最后一步我们来启动 flume-ng

/bin/flume-ng agent -n agent -c conf -f /home/flume_self/apache-flume-1.9.0-bin/conf/flume-conf.properties -Dflume.root.logger=INFO,console

-n 是名称

-c 是配置

-f 是配置地址

最好用 nohup 或者 supervisor 对任务进行管理。

再去目标 kafka-manager 之类的工具上去看下是否发送成功即可！

到此为止我们的目标就达成了。感觉还是蛮简单的，就是随便配置一下配置就可以完成工作，需要定制化的工作 flume 也支持利用一些勾子读取到数据然后进行 etl 或者修改之后再发送。还是比较灵活。希望早点遇到类似需求再玩一下。

Reference:

https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html Flume user_guide

https://juejin.im/post/5be4e549f265da61441f8dbe Apache Flume 入门教程

https://www.mtyun.com/library/how-to-install-flume-on-centos7 在 CentOS7 上安装 Flume

Flume 实战，将多台机器日志直接收集到 Kafka的更多相关文章

flink---实时项目--day01--1. openrestry的安装 2. 使用nginx+lua将日志数据写入指定文件中 3. 使用flume将本地磁盘中的日志数据采集到的kafka中去
1. openrestry的安装 OpenResty = Nginx + Lua,是⼀一个增强的Nginx,可以编写lua脚本实现⾮非常灵活的逻辑 (1)安装开发库依赖 yum install -y ...
polysh安装与使用-同时查看多台机器日志
polysh简介 polysh 是一个交互式命令,可以在一台服务器上批量的对一批服务器进行处理,运行交互式命令.官方的简介如下: Polysh is a tool to aggregate sever ...
项目实战14—ELK 企业内部日志分析系统
一.els.elk 的介绍 1.els,elk els:ElasticSearch,Logstash,Kibana,Beats elk:ElasticSearch,Logstash,Kibana ① ...
Flume 实战练习
前期准备了解Flume 架构及核心组件 Flume 架构及核心组件 Source : 收集(指定数据源从哪里获取) Channel : 聚集 Sink : 输出(把数据写到哪里去) 学习使用 Flu ...
微信内嵌浏览器sessionid丢失问题，nginx ip_hash将所有请求转发到一台机器
现象微信中打开网页,图形验证码填写后,经常提示错误,即使填写正确也会提示错误,并且是间歇性出现. 系统前期,用户使用主要集中在pc浏览器中,一直没有出现这样的问题.近期有部分用户是在微信中访问的,才出 ...
Oracle RAC中的一台机器重启以后无法接入集群
前天有个同事说有套AIX RAC的其中一台服务器重启了操作系统以后,集群资源CSSD的资源一直都在START的状态,检查日志输出有如下内容: [ CSSD][1286]clssnmv ...
如何在同一台机器上安装多个MySQL的实例
转自:'http://www.cnblogs.com/shangzekai/p/4375271.html 最近由于工作的需要,需要在同一台机器上搭建两个MySQL的实例,(注:已经存在了一个3306的 ...
ABP大型项目实战(2) - 调试与排错 - 日志 - 查看审计日志
这是<ABP大型项目实战>系列文章的一篇. 项目发布到生产环境后难免会有错误. 那么如何进行调试和排错呢? 我看到俱乐部里有人是直接登陆生产服务器把数据库下载到开发机器进行调试排错 ...
一脸懵逼学习Hadoop分布式集群HA模式部署（七台机器跑集群）
1)集群规划:主机名 IP 安装的软件运行的进程master 192.168.199.130 jdk.hadoop ...

随机推荐

.Net Core 获取应用物理路径的常见问题
如果要得到传统的ASP.Net应用程序中的相对路径或虚拟路径对应的服务器物理路径,只需要使用使用Server.MapPath()方法来取得Asp.Net根目录的物理路径. 但是在Asp.Net Cor ...
Oracle的视图和索引
学习笔记: ##视图 * 概念:视图就是提供一个查询的窗口,所有数据来自于原表. * 方法: * 查询语句创建表: * create table ...
解决 win10 家庭版环境下 MySQL 的ODBC驱动下载及安装
目录写在前面下载安装 1.首先,我们需要去官网下载ODBC驱动. 配置 1.打开控制面板.查看方式:选择大图标. 2.选择管理工具的ODBC 数据源(64 位). 3.在驱动程序目录下.我们可以看 ...
2019 京东java面试笔试总结（含面试题解析）
本人5年开发经验.18年年底开始跑路找工作,在互联网寒冬下成功拿到阿里巴巴.今日头条.京东等公司offer,岗位是Java后端开发,因为发展原因最终选择去了京东,入职一年时间了,也成为了面试官, ...
Windows环境：VMware下linux虚拟机与Windows主机进行文件共享的方法
转载至:https://blog.csdn.net/kai1001/article/details/79668327 感谢原作者的分享操作主要分两大步骤: 一.是对主机进行配置: 二.是在虚拟机上安 ...
zynq7020开发板+ Z-turn调试计划
参加米尔zynq7020开发板试用活动. 收到米尔z-turn板子后,焊接了一个JTAG转接板,以方便调试PL部分,对于后面的调试部分,主要分三个部分走:1.调试FPGA部分,实现逻辑控制外围简单的设 ...
分享整理vue.js在日常工作中用到的组件，帮助你在vue应用中快速开发
Vue-Echarts vue-echarts是封装后的vue插件, 基于 ECharts v4.0.1+ 开发,依赖 Vue.js v2.2.6+,功能一样的只是把它封装成vue插件这样更方便以v ...
jmeter-Unable to access jarfile ApacheJMeter.jar
jmeter在运行时报错Unable to access jarfile ApacheJMeter.jar.如下图: 检查后发现jmeter_home/bin/目录下缺失 ApacheJMeter.j ...
Java 控制流程之循环语句
循环:循环语句可以在满足循环条件的情况下,反复执行某一段代码,这段被重复执行的代码被称为循环体语句,当反复执行这个循环体时,需要在合适的时候把循环判断条件修改为false,从而结束循环,否则循环将一 ...
Java语言的介绍
1. 计算机语言语言:沟通交流的方式计算机语言:人与计算机之间的交流方式 java是一门计算机编程语言,也是意大利自行车品牌软件工程师,java开发工程师 <--------------- ...

Flume 实战，将多台机器日志直接收集到 Kafka

Flume 实战，将多台机器日志直接收集到 Kafka的更多相关文章

随机推荐

热门专题