日志收集-Flume-ng-mongodb-sink

本文主要介绍使用Flume传输数据到MongoDB的过程，内容涉及环境部署和注意事项。

一、环境搭建

1、flune-ng下载地址：http://www.apache.org/dyn/closer.cgi/flume/1.5.2/apache-flume-1.5.2-bin.tar.gz
2、mongodb java driver jar包下载地址：https://oss.sonatype.org/content/repositories/releases/org/mongodb/mongo-java-driver/2.13.0/mongo-java-driver-2.13.0.jar
3、flume-ng-mongodb-sink 源码下载地址：https://github.com/leonlee/flume-ng-mongodb-sink
flume-ng-mongodb-sink 需要自己编译jar包，从github上下载代码，解压之后执行mvn package，即可生成。需要先安装maven用于编译jar包

二、Flume配置

1、env配置

将mongo-java-driver和flume-ng-mongodb-sink两个jar包放到flume\lib目录下，并将路径加入到flume-env.sh文件的FLUME_CLASSPATH变量中；
JAVA_OPTS变量：加上-Dflume.monitoring.type=http -Dflume.monitoring.port=xxxx，可以在[hostname:xxxx]/metrics 上看到监控信息； -Xms指定JVM初始内存，-Xmx指定JVM最大内存
FLUME_HOME变量：设定FLUME根目录
JAVA_HOME变量：设定JAVA根目录

2、 log配置

在调试时，将日志设置为debug并打到文件：flume.root.logger=DEBUG,LOGFILE

3、传输配置

采用 Exec Source、file-channel、flume-ng-mongodb-sink

my_agent.sources.my_source_1.channels = my_channel_1

my_agent.sources.my_source_1.type = exec

my_agent.sources.my_source_1.command = python  xxx.py

my_agent.sources.my_source_1.shell = /bin/bash -c

my_agent.sources.my_source_1.restartThrottle = 10000

my_agent.sources.my_source_1.restart = true

my_agent.sources.my_source_1.logStdErr = true

my_agent.sources.my_source_1.batchSize = 1000

my_agent.sources.my_source_1.interceptors = i1 i2 i3

my_agent.sources.my_source_1.interceptors.i1.type = static

my_agent.sources.my_source_1.interceptors.i1.key = db

my_agent.sources.my_source_1.interceptors.i1.value = cswuyg_test

my_agent.sources.my_source_1.interceptors.i2.type = static

my_agent.sources.my_source_1.interceptors.i2.key = collection

my_agent.sources.my_source_1.interceptors.i2.value = cswuyg_test

my_agent.sources.my_source_1.interceptors.i3.type = static

my_agent.sources.my_source_1.interceptors.i3.key = op

my_agent.sources.my_source_1.interceptors.i3.value = upsert

字段说明：采用exec source，指定执行命令行为python xxx.py，在xxx.py代码中处理日志，并按照跟flume-ng-mongodb-sink的约定，print出json格式的数据，如果update类操作必须带着_id字段，print出来的日志被当作Event的Body，我再通过interceptors给它加上自定义Event Header；

static interceptors用于为Event Header添加信息，这里我为它加上了db=cswuyg_test、collection=cswuyg_test、op=upsert，这三个key是跟flume-ng-mongodb-sink 约定的，用于指定mongodb中的db、collection名以及操作类型为update。

my_agent.channels.my_channel_1.type = file

my_agent.channels.my_channel_1.checkpointDir = /home/work/flume/file-channel/my_channel_1/checkPoint

my_agent.channels.my_channel_1.useDualCheckpoints = true

my_agent.channels.my_channel_1.backupCheckpointDir = /home/work/flume/file-channel/my_channel_1/checkPoint2

my_agent.channels.my_channel_1.dataDirs = /home/work/flume/file-channel/my_channel_1/data

my_agent.channels.my_channel_1.transactionCapacity = 10000

my_agent.channels.my_channel_1.checkpointInterval = 30000

my_agent.channels.my_channel_1.maxFileSize = 4292870142

my_agent.channels.my_channel_1.minimumRequiredSpace = 524288000

my_agent.channels.my_channel_1.capacity = 100000

sink配置：

my_agent.sinks.my_mongo_1.type = org.riderzen.flume.sink.MongoSink

my_agent.sinks.my_mongo_1.host = xxxhost

my_agent.sinks.my_mongo_1.port = yyyport

my_agent.sinks.my_mongo_1.model = DYNAMIC/SINGLE ---查看源码仅支持此二种方式,并且必须大小
my_agent.sinks.my_mongo_1.db = XXX --mongo表名,默认名称为events
my_agent.sinks.my_mongo_1.username = XXX --mongo用户名
my_agent.sinks.my_mongo_1.password = YYY --mongo密码
my_agent.sinks.my_mongo_1.collecion = log

my_agent.sinks.my_mongo_1.batch = 10

my_agent.sinks.my_mongo_1.channel = my_channel_1

my_agent.sinks.my_mongo_1.timestampField = _S

参见：http://www.cnblogs.com/cswuyg/p/4498804.html

日志收集-Flume-ng-mongodb-sink的更多相关文章

Flume 1.5日志收集和存款mongodb安装结构
Flume该演示是不是说.你可以自己搜索. 但现在的互联网主要是Flume 1.4前版本号的信息.Flume 1.5在轰动的大变化.假设你准备尝试,我在这里给大家介绍一下程序最小化结构,和使用Mong ...
分布式日志收集系统 —— Flume
一.Flume简介 Apache Flume 是一个分布式,高可用的数据收集系统.它可以从不同的数据源收集数据,经过聚合后发送到存储系统中,通常用于日志数据的收集.Flume 分为 NG 和 OG ( ...
分布式日志收集收集系统：Flume(转)
Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力.Fl ...
Flume日志收集系统架构详解--转
2017-09-06 朱洁大数据和云计算技术任何一个生产系统在运行过程中都会产生大量的日志,日志往往隐藏了很多有价值的信息.在没有分析方法之前,这些日志存储一段时间后就会被清理.随着技术的发展和 ...
海量日志收集利器 —— Flume
Flume 是什么? Flume是一个分布式.可靠.和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的 ...
日志收集系统Flume及其应用
Apache Flume概述 Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume 支持定制各类数据发送方,用于收集各类型数据:同时,Fl ...
【转】flume+kafka+zookeeper 日志收集平台的搭建
from:https://my.oschina.net/jastme/blog/600573 flume+kafka+zookeeper 日志收集平台的搭建收藏 jastme 发表于 10个月前阅 ...
【转】Flume日志收集
from:http://www.cnblogs.com/oubo/archive/2012/05/25/2517751.html Flume日志收集一.Flume介绍 Flume是一个分布式.可 ...
Flume -- 开源分布式日志收集系统
Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. 一.Flum ...
基于Flume的美团日志收集系统(二)改进和优化
在<基于Flume的美团日志收集系统(一)架构和设计>中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计.在本节中,我们将会讲述在实际部署和使用过程中遇到的问 ...

随机推荐

artTemplate 原生 js 模板语法版
在页面中引用模板引擎: <script src="dist/template-native.js"></script> 下载表达式 <% 与 %&g ...
关于Linux路由表的route命令
转自:http://www.cnblogs.com/gunl/archive/2010/09/14/1826234.html 查看 Linux 内核路由表使用下面的 route 命令可以查看 Lin ...
HotSpot Java虚拟机中的“方法区”“持久代”“元数据区”的关系？
Sun/Oracle JDK的HotSpot VM中,直到JDK7都有“持久代”(Permanent Generation,简称PermGen).也称为方法区.Oracle JDK8的HotSpot ...
UML关系(泛化,实现,依赖,关联(聚合,组合))
http://www.cnblogs.com/olvo/archive/2012/05/03/2481014.html UML类图关系(泛化 .继承.实现.依赖.关联.聚合.组合) 继承.实现.依赖. ...
IO multiplexing 与非阻塞网络编程
使用I/O multipexing 的网络编程中,一般需要采用非阻塞网络编程的风格,防止服务端在处理高连接量大时候阻塞在某个文件描述符上面,比如某个socket 有大量的数据需要写,但是内核发送缓冲区 ...
【树莓派】树莓派新版系统SSH连接被拒绝问题处理
安装好新的版本树莓派(NOOBS_v2_4_0.zip)之后,直连显示器并接上网线,可以看到已经获取到动态IP地址了. 但是,此时使用xshell远程连接时,却一直连接不成功: [d:\~]$ Con ...
JAVA的Spring注入机制事例详解
一.前言最近使用Spring里面的依赖注入,比如StudentServiceImple2.java代码: package di.service.imple; import com.mengya.sp ...
MySql8.0数据库链接报错The driver has not received any packets from the server
1.我使用MySql数据库8.0版本,然后驱动改成了 jdbc.driver=com.mysql.cj.jdbc.Driver jdbc.url=jdbc:mysql://127.0.0.1:3306 ...
ES6学习笔记六：迭代
一:迭代器它是一种接口,为各种不同的数据结构提供统一的访问机制.任何数据结构只要部署Iterator接口,就可以完成遍历操作(即依次处理该数据结构的所有成员). ES6创造了一种新的遍历命令for. ...
Spring学习笔记一：基础概念
转载请注明原文地址:http://www.cnblogs.com/ygj0930/p/6774310.html 一:Spring是什么 Spring的主要作用是作为对象的容器. 传统编程中,我们 ...

日志收集-Flume-ng-mongodb-sink

日志收集-Flume-ng-mongodb-sink的更多相关文章

随机推荐

热门专题