日志实时收集之FileBeat+Kafka

之前，我们的某一个业务用于实时日志收集处理的架构大概是这样的：

在日志的产生端（LogServer服务器），都部署了FlumeAgent，实时监控产生的日志，然后发送至Kafka。经过观察，每一个FlumeAgent都占用了较大的系统资源（至少会占用一颗CPU 50%以上的资源）。而另外一个业务，LogServer压力大，CPU资源尤其紧张，如果要实时收集分析日志，那么就需要一个更轻量级、占用资源更少的日志收集框架，于是我试用了一下Filebeat。

Filebeat是一个开源的文本日志收集器，采用go语言开发，它重构了logstash采集器源码，安装在日志产生服务器上来监视日志目录或者特定的日志文件，并把他们发送到logstash、elasticsearch以及kafka上。Filebeat是代替logstash-forwarder的数据采集方案，原因是logstash运行在jvm上，对服务器的资源消耗比较大（Flume也是如此）。正因为Filebeat如此轻量级，因此不要奢望它能在日志收集过程中做更多清洗和转换的工作，它只负责一件事，就是高效可靠的传输日志数据，至于清洗和转换，可以在后续的过程中进行。

Filebeat官网地址为：https://www.elastic.co/guide/en/beats/filebeat/current/index.html 你可以在该地址中下载Filebeat和查看文档。

Filebeat安装配置

Filebeat的安装和配置非常简单。

下载filebeat-5.6.3-linux-x86_64.tar.gz，并解压。

进入filebeat-5.6.3-linux-x86_64目录，编辑配置文件filebeat.yml

配置input，监控日志文件：

filebeat.prospectors:

- input_type: log

paths:

- /data/dmp/openresty/logs/dmp_intf_*.log

配置output到Kafka

#—————————– Kafka output ——————————–

output.kafka:

hosts: ["datadev1:9092"]

topic: lxw1234

required_acks: 1

PS：假设你的Kafka已经安装配置好，并建了Topic。

更多的配置选项，请参考官方文档。

需要大数据学习资料和交流学习的同学可以加大数据学习群：724693112 有免费资料分享和一群学习大数据的小伙伴一起努力

Filebeat启动

在filebeat-5.6.3-linux-x86_64目录下，执行命令：

./filebeat -e -c filebeat.yml 来启动Filebeat。

启动后，Filebeat开始监控input配置中的日志文件，并将消息发送至Kafka。

你可以在Kafka中启动Consumer来查看：

./kafka-console-consumer.sh –bootstrap-server localhost:9092 –topic lxw1234 –from-beginning

Filebeat的消息格式

原始日志中，日志格式如下：

2017-11-09T15:18:05+08:00|~|127.0.0.1|~|-|~|hy_xyz|~|200|~|0.002

Filebeat会将消息封装成一个JSON串，除了包含原始日志，还包含了其他信息。

@timestamp：消息发送时间

beat：Filebeat运行主机和版本信息

fields：用户自定义的一些变量和值，非常有用，类似于Flume的静态拦截器

input_type：input类型

message：原始日志内容

offset：此条消息在原始日志文件中的offset

source：日志文件

另外， Filebeat对CPU的占用情况：

经过初步试用，以下方面的问题还有待继续测试：

数据可靠性：是否存在日志数据丢失、重复发送情况；

能否对Filebeat的消息格式进行定制，去掉一些冗余无用的项。

日志实时收集之FileBeat+Kafka的更多相关文章

海量日志实时收集系统架构设计与go语言实现
日志收集系统应该说是到达一定规模的公司的标配了,一个能满足业务需求.运维成本低.稳定的日志收集系统对于运维的同学和日志使用方的同学都是非常nice的.然而这时理想中的日志收集系统,现实往往不是这样的. ...
ELK+Filebeat+Kafka+ZooKeeper 构建海量日志分析平台
日志分析平台,架构图如下: 架构解读 : (整个架构从左到右,总共分为5层) 第一层.数据采集层最左边的是业务服务器集群,上面安装了filebeat做日志采集,同时把采集的日志分别发送给两个logs ...
快速搭建应用服务日志收集系统(Filebeat + ElasticSearch + kibana)
快速搭建应用服务日志收集系统(Filebeat + ElasticSearch + kibana) 概要说明需求场景,系统环境是CentOS,多个应用部署在多台服务器上,平时查看应用日志及排查问题十 ...
企业级中带你ELK如何实时收集分析Mysql慢查询日志
什么是Mysql慢查询日志? 当SQL语句执行时间超过设定的阈值时,便于记录到指定的日志文件中或者表中,所有记录称之为慢查询日志为什么要收集Mysql慢查询日志? 数据库在运行期间,可能会存在这很多 ...
ELK+Filebeat+Kafka+ZooKeeper 构建海量日志分析平台(elk5.2+filebeat2.11)
ELK+Filebeat+Kafka+ZooKeeper 构建海量日志分析平台参考:http://www.tuicool.com/articles/R77fieA 我在做ELK日志平台开始之初选择为 ...
使用Log4j将程序日志实时写入Kafka（转）
原文链接:使用Log4j将程序日志实时写入Kafka 很多应用程序使用Log4j记录日志,如何使用Kafka实时的收集与存储这些Log4j产生的日志呢?一种方案是使用其他组件(比如Flume,或者自己 ...
日志收集之--将Kafka数据导入elasticsearch
最近需要搭建一套日志监控平台,结合系统本身的特性总结一句话也就是:需要将Kafka中的数据导入到elasticsearch中.那么如何将Kafka中的数据导入到elasticsearch中去呢,总结起 ...
日志分析平台ELK之日志收集器filebeat
前面我们了解了elk集群中的logstash的用法,使用logstash处理日志挺好的,但是有一个缺陷,就是太慢了:当然logstash慢的原因是它依赖jruby虚拟机,jruby虚拟机就是用java ...
logstash收集时filebeat区分日志
logstash收集时filebeat区分日志 1.场景 filebeat在服务器中同时收集nginx和web项目日志,需要对两个日志在logstash中分别处理 2.版本区别 ==6.x之前 ...

随机推荐

如何配置WAMP环境（主要是Apache与PHP）
1.配置Apache 1.编辑Apache配置文件---http.conf(位于安装目录下的conf子目录内): 2.修改Document Root 和 Directory选项,这是修改Apache的 ...
UML期末复习题——2.8：UML Design Class Diagram(DCD)
第八题:设计类图重要概念: 1. 类图(Class Diagram): 类图是面向对象系统建模中最常用和最重要的图,是定义其它图的基础.类图主要是用来显示系统中的类.接口以及它们之间的静态结构和关系 ...
关于IC电源管脚去耦电容
原文地址:https://mp.weixin.qq.com/s/0dAyTpAcQWXlYULqCeKgFA 每个集成电路(IC)都必须使用电容将各电源引脚连接到器件上的地,原因有二:防止噪声影响其本 ...
MySQL软件的相关操作
服务的启动与关闭 * 启动 net start mysql * 关闭 net stop mysql * 打开服务窗口 services.msc *查询端口号: netstat -ano mysql密码 ...
linux：解决SSH连接Linux超时自动断开
用SSH登录到Linux的时候,由于默认的连接超时时间很短,经常断开! 1.修改文件 # vi /etc/ssh/sshd_config 2.重启sshd服务 # /etc/init.d/sshd r ...
008-网络抓包工具-wireshark
一.概述二.安装三.使用 3.1.基础设置语言:WireShark→首选项→语言 3.2.使用过程打开软件,选择对应的网卡, Filter:设置对应的关键词后,点击回车或者右侧箭头如,协议: ...
Throughput Controller(吞吐量控制器) 感觉就像个线程控制器来的
Percent Executions 下的 Throghput 意思是跑总线程的百分之多少. 如 10线程循环一次, Throghput 设置为80,则有8个线程会跑这个请求 Total Execu ...
C#创建windows服务(二：创建和卸载windows服务)
引用地址: https://docs.microsoft.com/zh-cn/dotnet/framework/windows-services/how-to-create-windows-servi ...
QML使用Python的函数
有2种方法: 一. QML中定义一个信号,连接Python里的函数: 这里的函数不用特意指明为槽函数,普通函数即可. QML的信号连接Python的函数 QML:首先在QML中定义一个信号,这里的信号 ...
Flutter 页面下拉刷新和上拉加载
flutter_easyrefresh 正如名字一样,EasyRefresh很容易就能在Flutter应用上实现下拉刷新以及上拉加载操作,它支持几乎所有的Flutter控件.它的功能与Android的 ...

日志实时收集之FileBeat+Kafka

日志实时收集之FileBeat+Kafka的更多相关文章

随机推荐

热门专题