Flume组件

【Flume组件】的更多相关文章

1.什么是Flume:apache顶级项目,主要用来做数据采集.分布式.高可用,将海量日志进行采集.聚合.传输的系统.能够对数据进行简单处理在发送到接收方. 2.Flume组件:source.channel.sink,一个Flume可以有一个source,多个channel.多个sink (1)source:数据收集组件,将日志从不同的client中收集过来. (2)channel:数据缓冲区.临时存储从source传过来的Event. (3)sink:将event从channel中读取出来并移…

【Hadoop】10、Flume组件

目录 Flume组件安装配置 1.下载和解压 Flume 2.Flume 组件部署 3.使用 Flume 发送和接受信息 Flume组件安装配置 1.下载和解压 Flume # 传Flume安装包 [root@master ~]# cd /opt/software/ [root@master software]# ls apache-flume-1.6.0-bin.tar.gz hadoop-2.7.1.tar.gz jdk-8u152-linux-x64.tar.gz mysql-5.7.18…

Flume 组件安装配置

下载和解压 Flume 实验环境可能需要回至第四,五,六章(hadoop和hive),否则后面传输数据可能报错(猜测)! 可以从官网下载 Flume 组件安装包 , 下载地址如下 URL 链接所示:https://archive.apache.org/dist/flume/1.6.0/ 使用 root用户解压 Flume安装包到"/usr/local/src"路径,并修改解压后文件夹名为 flume [root@master ~]#tar zxvf…

flume组件汇总 source、sink、channel

Flume Source Source类型说明 Avro Source 支持Avro协议(实际上是Avro RPC),内置支持 Thrift Source 支持Thrift协议,内置支持 Exec Source 基于Unix的command在标准输出上生产数据 JMS Source 从JMS系统(消息.主题)中读取数据,ActiveMQ已经测试过 Spooling Directory Source 监控指定目录内数据变更 Twitter 1% firehose Source 通过API持续下载…

Flume组件source，channel，sink源码分析

LifeCycleState: IDLE, START, STOP, ERROR [Source]: org.apache.flume.Source 继承LifeCycleAware{stop() + start() + getLifeCycleState()} + NamedComponent{getName() + setName()} 产生事件(Event),调用通道处理器(ChannelProcessor)的方法,将事件(Event)持久化到通道(Channel)中. [Channel]…

Flume组件汇总2

Component Interface Type Alias Implementation Class org.apache.flume.Channel memory org.apache.flume.channel.MemoryChannel org.apache.flume.Channel jdbc org.apache.flume.channel.jdbc.JdbcChannel org.apache.flume.Channel file org.apache.flume.channel.…

flume常用组件

Flume组件 1. Source NetCat Source:绑定的端口(tcp.udp),将流经端口的每一个文本行数据作为Event输入: type:source的类型,必须是netcat. bind:要监听的(本机的)主机名或者ip.此监听不是过滤发送方.一台电脑不是说只有一个IP.有多网卡的电脑,对应多个IP. port:绑定的本地的端口. Avro Source:监听一个avro服务端口,采集Avro数据序列化后的数据: type:avrosource的类型,必须是avro. bi…

数据采集组件：Flume基础用法和Kafka集成

本文源码:GitHub || GitEE 一.Flume简介 1.基础描述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据: 特点:分布式.高可用.基于流式架构,通常用来收集.聚合.搬运不同数据源的大量日志到数据仓库. 2.架构模型 Agent包括三个核心组成,Source.Channel.Sink.Source负责接收数据源,并兼容多种类型,Channel是数据的缓冲区,Sink处理数…

Flume官方文档翻译——Flume 1.7.0 User Guide （unreleased version）（二）

Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(一) Logging raw data(记录原始数据) Logging the raw stream of data flowing through the ingest pipeline is not desired behaviour in many production environments because this may result in leaking sensit…

《OD学Flume》20160806Flume和Kafka

一.Flume http://flume.apache.org/FlumeUserGuide.html Flume是一个分布式的,可靠的,可用的,非常有效率的对大数据量的日志数据进行收集.聚集.移动信息的服务. 1. 架构方式 1)所有应用使用一台flume服务器: 2)所有应用共享flume集群: 3)每个应用使用一台flume,然后使用一个flume节点收集分散的flume数据: 2. flume组件 1)启动的每个flume进程(jvm进程),称为agent 每个flume agent:…

Flume+Sqoop+Azkaban笔记

大纲(辅助系统) 离线辅助系统数据接入 Flume介绍 Flume组件 Flume实战案例任务调度调度器基础市面上调度工具 Oozie的使用 Oozie的流程定义详解数据导出 sqoop基础知识 sqoop实战及原理 Sqoop数据导入实战 Sqoop数据导出实战 Sqoop作业操作 Sqoop的原理目标: 1.理解flume.sqoop.oozie的应用场景 2.理解flume.sqoop.oozie的基本原理 3.掌握flume.sqoop.oozie的使用方法前言在一个完整…

【翻译】Flume 1.8.0 User Guide(用户指南) Processors

翻译自官网flume1.8用户指南,原文地址:Flume 1.8.0 User Guide 篇幅限制,分为以下5篇: [翻译]Flume 1.8.0 User Guide(用户指南) [翻译]Flume 1.8.0 User Guide(用户指南) source [翻译]Flume 1.8.0 User Guide(用户指南) Sink [翻译]Flume 1.8.0 User Guide(用户指南) Channel [翻译]Flume 1.8.0 User Guide(用户指南) Proces…

【翻译】Flume 1.8.0 User Guide(用户指南) source

翻译自官网flume1.8用户指南,原文地址:Flume 1.8.0 User Guide 篇幅限制,分为以下5篇: [翻译]Flume 1.8.0 User Guide(用户指南) [翻译]Flume 1.8.0 User Guide(用户指南) source [翻译]Flume 1.8.0 User Guide(用户指南) Sink [翻译]Flume 1.8.0 User Guide(用户指南) Channel [翻译]Flume 1.8.0 User Guide(用户指南) Proces…

【翻译】Flume 1.8.0 User Guide(用户指南)

翻译自官网flume1.8用户指南,原文地址:Flume 1.8.0 User Guide 篇幅限制,分为以下5篇: [翻译]Flume 1.8.0 User Guide(用户指南) [翻译]Flume 1.8.0 User Guide(用户指南) source [翻译]Flume 1.8.0 User Guide(用户指南) Sink [翻译]Flume 1.8.0 User Guide(用户指南) Channel [翻译]Flume 1.8.0 User Guide(用户指南) Proces…

聊聊Flume和Logstash的那些事儿

在某个Logstash的场景下,我产生了为什么不能用Flume代替Logstash的疑问,因此查阅了不少材料在这里总结,大部分都是前人的工作经验下,加了一些我自己的思考在里面,希望对大家有帮助. 本文适合有一定大数据基础的读者朋友们阅读,但如果你没有技术基础,照样可以继续看(这就好比你看<葵花宝典>第一页:欲练此功,必先自宫,然后翻到第二页:若不自宫,也可练功,没错就是这种感觉→_→). 大数据的数据采集工作是大数据技术中非常重要.基础的部分,数据不会平白无故地跑到你的数据平台软件中,你得用什…

Flume 在有赞大数据的实践

https://mp.weixin.qq.com/s/gd0KMAt7z0WbrJL0RkMEtA 原创: 有赞技术有赞coder 今天文 | hujiahua on 大数据一.前言 Flume 是一个分布式的高可靠,可扩展的数据采集服务. Flume 在有赞的大数据业务中一直扮演着一个稳定可靠的日志数据“搬运工”的角色.本文主要讲一下有赞大数据部门在 Flume 的应用实践,同时也穿插着我们对 Flume 的一些理解. 二.Delivery 保证认识 Flume 对事件投递的可靠性保证…

<Flume><Source Code><Flume源码阅读笔记>

Overview source采集的日志首先会传入ChannelProcessor, 在其内首先会通过Interceptors进行过滤加工,然后通过ChannelSelector选择channel. Source和Sink之间是异步的,sink只需要监听自己关系的Channel的变化即可. sink存在写失败的情况,flume提供了如下策略: 默认是一个sink,若写入失败,则该事务失败,稍后重试. 故障转移策略:给多个sink定义优先级,失败时会路由到下一个优先级的sink.sink只要抛出一…

flume的memeryChannel中transactionCapacity和sink的batchsize需要注意事项

一. fluem中出现,transactionCapacity查询一下,得出一下这些: 最近在做flume的实时日志收集,用flume默认的配置后,发现不是完全实时的,于是看了一下,原来是memeryChannel的transactionCapacity在作怪,因为他默认是100,也就是说收集端的sink会在收集到了100条以后再去提交事务(即发送到下一个目的地),于是我修改了transactionCapacity到10,想看看是不是会更加实时一点,结果发现收集日志的agent启动的时候报错了.…

hadoop伪分布式组件安装

一.版本建议 Centos V7.5 Java V1.8 Hadoop V2.7.6 Hive V2.3.3 Mysql V5.7 Spark V2.3 Scala V2.12.6 Flume V1.80 Sqoop V1.4.5 二.Hadoop JDK地址: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html Hadoop地址: http://hadoop.apache.org…

2.flume架构以及核心组件

flume组件主要包含三部分 source:从各个地方收集数据 channel:聚集,相当于临时数据存放的地方.因为数据来的时候,不可能来一条便写一次,那样效率太低,而是先把数据放在通道里,等通道满了再写入 sink:输出,HDFS sink,HIVE sink,等等,写到hdfs等地方.等于是把channel里的数据读取出来,写到hdfs里面 sink不仅可以将数据写到hdfs里面,还可以被另一个agent所source,即一个agent的输出作为另一个agent的输入,像链子一样. 而且还可…

Flume系列一之架构介绍和安装

Flume架构介绍和安装写在前面在学习一门新的技术之前,我们得知道了解这个东西有什么用?我们可以使用它来做些什么呢?简单来说,flume是大数据日志分析中不能缺少的一个组件,既可以使用在流处理中,也可以使用在数据的批处理中. 1.流处理: 2.离线批处理: 分析:不管你是数据的实时流处理,还是数据的离线批处理,都是会使用flume这个日志收集框架来做日志的收集.因此,学习这个这个组件是很重要的.这个组件的使用也是很简单的. 简单介绍一下Flume Flume是一种分布式的.可靠的.可用的服务…

一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考

本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F xxx.log 的方式) source来获取日志时,当单条日志过大超过1M时,source端无法从日志中获取到Event.2.日志超过1M后,flume的kafka sink 作为生产者发送给日志给kafka失败,kafka无法收到消息.以下针对踩的这两个坑做分析,flume 我使用的是1.9.0…

Flume实战案例运维篇

Flume实战案例运维篇作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Flume概述 1>.什么是Flume Flume是一个分布式.可靠.高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接收方. 官方地址:http://flume.apache.org/. 2>.Flume特性 ()高可靠性 Flume提供了end to end的数据可靠性机制 ()易于扩展 Agent为分布式架构,可水平…

记Flume-NG一些注意事项(不定时更新，欢迎提供信息)

这里只考虑flume本身的一些东西,对于JVM.HDFS.HBase等得暂不涉及.... 一.关于Source: 1.spool-source:适合静态文件,即文件本身不是动态变化的: 2.avro source可以适当提高线程数量来提高此source性能: 3.ThriftSource在使用时有个问题需要注意,使用批量操作时出现异常并不会打印异常内容而是"Thrift source %s could not append events to the channel.",这是因为源码中…

flume1.4.0源码结构剖析

flume基本思想: source负责收集数据,channel负责缓存数据,sink负责消费channel中的数据,具体使用方式这里不赘述生命周期管理: 生命周期相关代码在flume-ng-core文件夹下的lifecycle子文件夹内 flume的所有组件(除了monitor service)都有生命周期的概念,主要作用是用来标记组件目前所属的状态.flume组件的生命周期有四个状态,分别是IDLE,START,STOP,ERROR,意义如下: IDLE 组件已经构造完成 START 组件已…

mysql变更数据的捕获和入库

问题:涉及状态的信息,mysql中是update的,缺少中间状态的记录.数据分析中需要这部分数据. 思路:后端服务通过监控某张表的某个字段,根据mysql的binlog文件,还原数据,发送到kafka.我们消费kafka中的数据,最终在hive的ods层形成表更数据表. 方案设计: java多线程消费kafka数据直接写入hdfs问题: (1)会在hdfs形成大量小文件 (2) 要监控java程序,维护kafka偏移量等等 spark streaming程…

Flume-NG一些注意事项（转）

原文链接:记Flume-NG一些注意事项这里只考虑flume本身的一些东西,对于JVM.HDFS.HBase等得暂不涉及.... 一.关于Source: 1.spool-source:适合静态文件,即文件本身不是动态变化的: 2.avro source可以适当提高线程数量来提高此source性能: 3.ThriftSource在使用时有个问题需要注意,使用批量操作时出现异常并不会打印异常内容而是"Thrift source %s could not append events to the c…

webPage logService 日志服务剥离

[旧的场景]1.x.a.com指向负载均衡服务器ipL;2.代码所在的应用服务器ipA,ipB,ipC,运行nginx-phpFPM服务,提供2个服务: 2.1.应用服务器ipA,ipB,ipC中web服务: webPage-URL: http://x.a.com/m-phpPage/c/v: 2.2.应用服务器pA,ipB,ipC中log服务: writeLog-URL: http://x.a.com/m--phpWriteTxtLog/c/v(日志在本地落盘,分布于ipA,ipB,ipC:)…

Spark Streaming实时处理应用

1 框架一览事件处理的架构图如下所示. 2 优化总结当我们第一次部署整个方案时,kafka和flume组件都执行得非常好,但是spark streaming应用需要花费4-8分钟来处理单个batch.这个延迟的原因有两点,一是我们使用DataFrame来强化数据,而强化数据需要从hive中读取大量的数据: 二是我们的参数配置不理想. 为了优化我们的处理时间,我们从两方面着手改进:第一,缓存合适的数据和分区:第二,改变配置参数优化spark应用.运行spark应用的spark-su…

Flume-1-7-0用户手册

介绍概述 Apache Flume是为有效收集聚合和移动大量来自不同源到中心数据存储而设计的可分布,可靠的,可用的系统. Apache Flume的用途不仅限于日志数据聚合.由于数据源是可定制的,Flume可用于传输大量事物数据包括但不限于网络流量数据,社交媒体产生的数据,Email消息和很多其它类型的数据源. Apache Flume是Apache软件基金会的顶级项目之一. 现在有两个版本可用(版本0.9.x和 1.x) 0.9.x版本的文档在the Flume 0.9.x User Gui…