flume进阶】的更多相关文章

上一张初识里面谢了一些flume入门的内容,其实在真正工作环境里面这种情况使用的是很少的,大部分情况,我们可能需要从多台设备的日志里面汇总收集数据并存储到HDFS上,以便于后期对数据进行处理,真实的情况可能是这样的,分别根据不同的消息来源进行不同的处理,不同的存储.. 上面只是一个大致情况,一般情况下,我们会将Flume里面可以做的还有很多,大批量的日志数据我们不能说都不加以处理就直接推送出去,一般的,我们会在数据源头对数据进行过滤(即对source进行属性配置),目前来说采用日志数据过滤的方式…
一.flume事务 put事务流程: 1.doPut:将批量数据先写入临时缓冲区putList 2.doCommit:检查Channel内存队列是否足够, (1)达到一定时间没有数据写入到putList (2)达到了putListCapcity容量 3.doRollback:Channel内存队列空间不足,回滚数据到putList,会被channel打回来 take事务流程: 1.doTake:将数据取到临时缓冲区takeList,并将数据发送到HDFS 2.doCommit:如果数据全部发送成…
Flume 1. 概述 Flume是一个高可用,高可靠,分布式的海量日志采集.聚合和传输的系统.Flume基于流式架构,灵活简单. Flume的作用 Flume最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS Flume的特性 有一个简单.灵活的基于流的数据流结构 具有负载均衡机制和故障转移机制 一个简单可扩展的数据模型 三大核心组件 Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的 Agent 主要有 3 个部分组成,Source.Channel.Sin…
[toc] 一.Flume 数据传输流程 重要组件: 1)Channel选择器(ChannelSelector) ​ ChannelSelector的作用就是选出Event将要被发往哪个Channel.其共有两种类型,分别是Replicating(复制)和**Multiplexing**(多路复用). ​ ReplicatingSelector会将同一个Event发往所有的Channel,Multiplexing会根据相应的原则,将不同的Event发往不同的Channel. 2)SinkProc…
离线数据分析平台是一种利用hadoop集群开发工具的一种方式,主要作用是帮助公司对网站的应用有一个比较好的了解.尤其是在电商.旅游.银行.证券.游戏等领域有非常广泛,因为这些领域对数据和用户的特性把握要求比较高,所以对于离线数据的分析就有比较高的要求了. 讲师本人之前在游戏.旅游等公司专门从事离线数据分析平台的搭建和开发等,积累了一些这方面比较实用的技能点,特意整理录制成视频,本项目全程手敲,适合各层次学员学习本视频的知识点.当然对于对hadoop有一定了解的学员而言,大家一看就知道是对hado…
Hadoop业务的大致开发流程以及Flume在业务中的地位: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步,从而引出我们本文的主角-Flume. Flume概念 flume是分布式的日志收集系统,它将各个服务器中的数据收集起来并送到指定的地方去,比如说送到图中的HDFS,简单来说flume就是收集日志的. Event概念 在这里有必要先介绍一下flume中event的相关概念:flume的核心是把数据从数据源(source…
大数据学习之Linux进阶 1-> 配置IP 1)修改配置文件 vi /sysconfig/network-scripts/ifcfg-eno16777736 2)注释掉dhcp #BOOTPROTO="dhcp" 3)添加配置(windows->ipconfig -all) IPADDR=192.168.50.179 NETMASK=225.255.255.0 GATEWAY=192.168.50.1 DNS1=219.141.136.10 4)重启网卡 service…
一.基础篇 面向对象 什么是面向对象 面向对象.面向过程 面向对象的三大基本特征和五大基本原则 平台无关性 Java如何实现的平台无关 JVM还支持哪些语言(Kotlin.Groovy.JRuby.Jython.Scala) 值传递 值传递.引用传递 为什么说Java中只有值传递 封装.继承.多态 什么是多态.方法重写与重载 Java的继承与实现 构造函数与默认构造函数 类变量.成员变量和局部变量 成员变量和方法作用域 Java基础知识 基本数据类型 7种基本数据类型:整型.浮点型.布尔型.字符…
转: https://www.zhihu.com/question/39139518 一.基础篇1.1 JVM1.1.1. Java内存模型,Java内存管理,Java堆和栈,垃圾回收 http://www.jcp.org/en/jsr/detail?id=133 Java内存模型 1.1.2. 了解JVM各种参数及调优1.1.3. 学习使用Java工具 jps, jstack, jmap, jconsole, jinfo, jhat, javap, … BTrace — Project Ken…
前言 Kafka 是一款分布式消息发布和订阅系统,具有高性能.高吞吐量的特点而被广泛应用与大数据传输场景.它是由 LinkedIn 公司开发,使用 Scala 语言编写,之后成为 Apache 基金会的一个顶级项目.kafka 提供了类似 JMS 的特性,但是在设计和实现上是完全不同的,而且他也不是 JMS 规范的实现. Kafka简介 kafka产生背景 kafka 作为一个消息系统,早起设计的目的是用作 LinkedIn 的活动流(Activity Stream)和运营数据处理管道(Pipe…