flume 总结

flume 总结

1 下载、配置、安装

1.1 下载

在官网 http://flume.apache.org/download.html 下载 apache-flume-1.7.0-bin.tar.gz 文件，解压缩。

1.2 配置、安装

进入解压缩文件夹下的 conf 文件夹，执行 cp flume-env.sh.template flume-env.sh，在 flume-env.sh 中添加 JAVA_HOME=jdk_path jdk_path 为 java 绝对路径。

执行 /flume-1.7.0-bin/bin/flume-ng version 出现版本信息证明配置安装成功。

2 flume 架构

flume 架构是基于 agent，agent 是由 source、channel、sink 组成。其中 source 相当于生产者，channel 相当于消息队列，sink 相当于消费者。

数据在 flume 中是以 event 为单位的，source 将数据打包为 event 传入 channel、sink 从 channel 中取数据。event 从 source 到 channel 和从 channel 到 sink 都是事务级别的。

由于 flume 是基于 agent 的，所以 flume 支持多级结构、扇入、扇出

3 agent 配置

一个 agent 中至少包括 source、channel、sink 各一个。

a1.sources = r1

a1.sinks = k1

a1.channels = c1

a1 为 agent 的名称。

以下内容均不完全，详情参考 http://flume.apache.org/FlumeUserGuide.html 。

3.1 source 配置

本文只列出了几种类型。

3.1.1 监听网络端口

avro source ：以 avro 格式处理数据

# 必须配置

a1.sources.r1.type = avro

a1.sources.r1.bind = 127.0.0.1

a1.sources.r1.port = 3366

a1.sources.r1.channels = c1

#可选配置

# ssl 认证

a1.sources.r1.ssl = false

a1.sources.r1.keystore =

a1.sources.r1.keystore-password =

# ip 过滤

a1.sources.r1.ipFilter = false

a1.sources.r1.ipFilterRules

……

thrift source ：以 thrift 格式处理数据

# 必须配置

a1.sources.r1.type = thrift

a1.sources.r1.bind = 127.0.0.1

a1.sources.r1.port = 3366

a1.sources.r1.channels = c1

#可选配置

# ssl 认证

a1.sources.r1.ssl = false

a1.sources.r1.keystore =

a1.sources.r1.keystore-password =

……

还有 http 类型等详见 http://flume.apache.org/FlumeUserGuide.html

3.1.2 监控文件

spooldir source ：监控文件夹下新增文件

# 必须配置

a1.sources.r1.type = spooldir

a1.sources.r1.spoolDir = directory

a1.sources.r1.channels = c1

#可选配置

#是否带头部信息

a1.sources.r1.fileHeader = true

#忽略后缀文件

a1.sources.r1.ignorePattern = .*mv

#最大一行大小

a1.sources.r1.deserializer.maxLineLength = 50000

# 发现新文件 5s 后处理

a1.sources.r1.pollDelay = 5000

#对完成文件添加后缀 .COMPLETED

#a1.sources.r1.fileSuffix = .COMPLETED

#完成文件后是否删除 never or immediate

#a1.sources.r1.deletePolicy = never

……

**exec source** ：监控文件夹下新增文件

# 必须配置

a1.sources.r1.type = exec

a1.sources.r1.command = tail -F file

a1.sources.r1.channels = c1

#可选配置

#挂掉后是否重启

a1.sources.r1.restart = false

# stderr 是否写入日志

a1.sources.r1.logStdErr = false

……

3.2 channel 配置

memory channel

# 必须配置

a1.channels.c1.type = memory

# channel 队列最大长度

a1.channels.c1.capacity = 1000

# 事务队列最大长度

a1.channels.c1.transactionCapacity = 100

# 超时时间

a1.channels.c1.keep-alive = 3

a1.channels.c1.byteCapacityBufferPercentage = 20

# 最大内存

a1.channels.c1.byteCapacity = 800000

**file channel**

# 必须配置

a1.channels.c1.type = file

# 记录传输进度文件目录

a1.channels.c1.checkpointDir = /mnt/flume/checkpoint

# 记录日志目录

a1.channels.c1.dataDirs = /mnt/flume/data

# 事务队列最大长度

a1.channels.c1.transactionCapacity = 10000

# 每个文件最大大小

a1.channels.c1.maxFileSize = 2146435071

# 小于此空间大小将停止传输

a1.channels.c1.minimumRequiredSpace = 524288000

3.3 sink 配置

avro sink

# 必须配置

a1.sinks.s1.type = avro

a1.sinks.s1.hostname = 127.0.0.1

a1.sinks.s1.port = 3366

a1.sinks.s1.channels = c1

#可选配置

# ssl 认证

a1.sinks.s1.ssl = false

a1.sinks.s1.truststore =

a1.sinks.s1.truststore-password =

……

thrift sinks ：以 thrift 格式处理数据

# 必须配置

a1.sinks.s1.type = thrift

a1.sinks.s1.hostname = 127.0.0.1

a1.sinks.s1.port = 3366

a1.sinks.s1.channels = c1

#可选配置

# ssl 认证

a1.sinks.s1.ssl = false

a1.sinks.s1.truststore =

a1.sinks.s1.truststore-password =

……

**file roll sink**

# 必须配置

a1.sinks.s1.type = file_roll

a1.sinks.k1.sink.directory = /var/log/flume

#可选配置

# 每 30 秒生成一个文件

a1.sinks.k1.sink.rollInterval = 30

# 事务队列大小

a1.sinks.k1.sink.batchSize = 100

4 failover 和 load balancing

flume 的 failover 和 load balancing 都是针对 sink 的。

failover

a1.sinkgroups = g1

a1.sinkgroups.g1.sinks = k1 k2

a1.sinkgroups.g1.processor.type = failover

a1.sinkgroups.g1.processor.priority.k1 = 5

a1.sinkgroups.g1.processor.priority.k2 = 10

a1.sinkgroups.g1.processor.maxpenalty = 10000

在 sinkgroups 中，先启用的 priority 大的 sink。只有在当前的 sink 挂掉后，flume 才会启用 sinkgroups 中其余最大的。

load balancing

a1.sinkgroups = g1

a1.sinkgroups.g1.sinks = k1 k2

a1.sinkgroups.g1.processor.type = load_balance

a1.sinkgroups.g1.processor.backoff = true

# balance ： round_robin, random

a1.sinkgroups.g1.processor.selector = random

5 扇出

对 source 的扇出有 replicating、multiplexing 两种方式。

replicating

在 source 配置后添加以下配置

#以复制方式扇出

a1.sources.r1.selector.type = replicating

a1.sources.r1.channels = c1 c2

**multiplexing**

在 source 配置后添加以下配置。
复用方式需要在消息中附加头部消息，对头部内容进行匹配后扇出。

#以复用方式扇出

a1.sources.r1.selector.type= multiplexing

a1.sources.r1.channels= c1 c2

# 判断 header 中 state 字段

a1.sources.r1.selector.header= state

# state 字段为 CZ 发送到 c1

a1.sources.r1.selector.mapping.CZ= c1

# state 字段为 US 发送到 c2

a1.sources.r1.selector.mapping.US= c2

# 未匹配的数据发送到 c1

a1.sources.r1.selector.default= c1

6 二次开发

sink 开发

public class MySink extends AbstractSink implements Configurable {

  private static final Logger logger = LoggerFactory.getLogger(TimeFileSink.class );

  private String myProp;

  @Override

  public void configure(Context context) {

    String myProp = context.getString("myProp", "defaultValue");

    // Process the myProp value (e.g. validation)

    // Store myProp for later retrieval by process() method

    this.myProp = myProp;

  }

  @Override

  public void start() {

    // Initialize the connection to the external repository (e.g. HDFS) that

    // this Sink will forward Events to ..

  }

  @Override

  public void stop () {

    // Disconnect from the external respository and do any

    // additional cleanup (e.g. releasing resources or nulling-out

    // field values) ..

  }

  @Override

  public Status process() throws EventDeliveryException {

    Status status = null;

    // Start transaction

    Channel ch = getChannel();

    Transaction txn = ch.getTransaction();

    txn.begin();

    try {

      // This try clause includes whatever Channel operations you want to do

      Event event = ch.take();

      // Send the Event to the external repository.

      // storeSomeData(e);

      txn.commit();

      status = Status.READY;

    } catch (Throwable t) {

      txn.rollback();

      // Log exception, handle individual exceptions as needed

      status = Status.BACKOFF;

      // re-throw all Errors

      if (t instanceof Error) {

        throw (Error)t;

      }

    }

    return status;

  }

}

在开发过程中只要重写 configure、process函数就可。

其中 configure 函数是从配置文件获取所需的配置，使用 context.getString 获取字符串，context.getInteger 获取数字。

在新建的类中，会不断的调用 process 函数

Channel ch = getChannel();

Transaction txn = ch.getTransaction();

// 获取事件

Event event = ch.take();

//提交事务

txn.commit();

//回滚事务

txn.rollback();

//关闭

txn.close();

完成开发后把 .class 文件打包为 .jar ，把 .jar 包放入 plugins.d/personal/lib/ 目录下（不存在自建，personal 随意）。在配置文件中 a1.sinks.s1.type 后添加自定义的完整包路径。

source 开发

同 sink 开发。

7 启动 flume

bin/flume-ng agent -c conf/ -f conf/flume_spool.conf -n a1 -Dflume.root.logger=INFO,console

-c 配置文件目录

-f 加载的配置文件

-n 配置文件中 agent 名称

-Dflume.root.logger=INFO,console 将 flume 运行中产生的大于 INFO 级别的消息输出到控制台

-Dflume.root.logger=INFO,LOGFILE 将 flume 运行中产生的大于 INFO 级别的消息输出到日志，详细在 conf 目录下的 log4j.properties 文件

总结

有些东西并没有写入，有问题可以给我留言，看到会第一时间回复的。
本人第一次写博客，有很多不完美的地方请大家指出，O(∩_∩)O谢谢。

---------------------

本文来自 lazyun 的CSDN 博客，全文地址请点击：https://blog.csdn.net/Phoenix_Lzy/article/details/70477519?utm_source=copy

flume 学习总结的更多相关文章

Flume学习总结
Flume学习总结 flume是一个用来采集数据的软件,它可以从数据源采集数据到一个集中存放的地方. 最常用flume的数据采集场景是对日志的采集,不过,lume也可以用来采集其他的各种各样的数据,因 ...
flume学习（三）：flume将log4j日志数据写入到hdfs（转）
原文链接:flume学习(三):flume将log4j日志数据写入到hdfs 在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中.配置文件如下: tier1.sources=sou ...
Flume学习应用：Java写日志数据到MongoDB
概述 Windows平台:Java写日志到Flume,Flume最终把日志写到MongoDB. 系统环境操作系统:win7 64 JDK:1.6.0_43 资源下载 Maven:3.3.3下载.安装 ...
Flume学习 & Kafka & Storm 等 & Log4J 配置
正在学习这篇文章: http://blog.csdn.net/ymh198816/article/details/51998085 和工作中接触的电商.订单.分析,可以结合起来. 开宗明义,这幅图片: ...
flume学习安装
近期项目组有需求点击流日志须要自己收集,学习了一下flume而且成功安装了.相关信息记录一下. 1)下载flume1.5版本号 wget http://www.apache.org/dyn/clos ...
flume学习以及ganglia(若是要监控hive日志，hive存放在/tmp/hadoop/hive.log里，只要运行过hive就会有)
python3.6hdfs的使用 https://blog.csdn.net/qq_29863961/article/details/80291654 https://pypi.org/ 官网直接搜 ...
flume学习
下载自定义sink(mysql) 1.ide打开下载后的源码 2.代码如下: /** * Licensed to the Apache Software Foundation (ASF) under ...
Flume学习——BasicTransactionSemantics
org.apache.flume.channel.BasicTransactionSemantics An implementation of basic Transaction semantics ...
Flume学习——Flume中事务的定义
首先要搞清楚的问题是:Flume中的事务用来干嘛? Flume中的事务用来保证消息的可靠传递. 当使用继承自BasicChannelSemantics的Channel时,Flume强制在操作Chann ...
Flume学习——Flume的架构
Flume有三个组件:Source.Channel 和 Sink.在源码中对应同名的三个接口. When a Flume source receives an event, it stores it ...

随机推荐

Android BLE蓝牙开发-读写数据获取UUID
https://www.jianshu.com/p/3711cfbf7128 一个ble蓝牙设备有多个包括多个Profile 一个Profile中有多个服务Service(通过服务的uuid找到对应的 ...
Cacti 1.1.6 添加monitor和thold插件
以前一直使用0.8版本的cacti,最近升级到1.1.6之后,发现以前0.8用的插件已经不适用了,需要下载新的插件包进行导入到下面网址获取Cacti插件包https://github.com/Cact ...
docker的swarm介绍
转载自:https://blog.csdn.net/karamos/article/details/80132082 另外一篇:https://www.jianshu.com/p/9eb9995884 ...
MySQL四种事务隔离级别详解
本文实验的测试环境:Windows 10+cmd+MySQL5.6.36+InnoDB 一.事务的基本要素(ACID) 1.原子性(Atomicity):事务开始后所有操作,要么全部做完,要么全部不做 ...
安装python后，启动时提示“0x00000000001”内存错误
直关资料: https://www.cnblogs.com/onewalee/p/7887747.html 问题情况:安装python后,在CMD命令中启动python就提示一个内存错误的对话框,重新 ...
zookeeper 入门(二)
上一篇教程中重点讲解了如何部署启动一台zookeeper服务本章中我们会重点讲解下如何部署一套zookeeper的集群环境基于paxos 算法,部署一套集群环境要求至少要有3个节点并且节 ...
Manager升职了
公司去年从每年七月份公布officer升职改成了每年四月份公布. 早上收到大头发给全公司的邮件,赫然发现Manager升了一级到VP,虽然是金融公司,但我司的VP好像会比银行多一点点福利,比如额外假期 ...
挖坑:handoop2.6 开启kerberos(全流程学习记录)
目录: 1.涉及插件简介 2.安装步骤 3.日志错误查看 1.kerberos是什么东西度娘指导: Kerberos 是一种网络认证协议,其设计目标是通过密钥系统为客户机 / 服务器应用程序提供 ...
oneinstack 另一个 lnmp环境一键安装工具
oneinstack 另一个 http://oneinstack.com/ OneinStack包含以下组合: lnmp(Linux + Nginx+ MySQL+ PHP) lamp(Linux ...
[Laravel] 09 - Functional models
Laravel框架下的若干常用功能实现. 文件上传邮件发送缓存使用错误日志队列应用文件上传一.配置文件功能配置 [config/filesystems.php] 'disks' =&g ...

flume 学习总结