Flume-数据流监控 Ganglia

flume学习以及ganglia(若是要监控hive日志，hive存放在/tmp/hadoop/hive.log里，只要运行过hive就会有)

python3.6hdfs的使用 https://blog.csdn.net/qq_29863961/article/details/80291654 https://pypi.org/ 官网直接搜索hdfs就好 https://www.cnblogs.com/dachenzi/p/8676104.html flume官网http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 最下方一.Flume 简介1)…

Flume-数据流监控 Ganglia

Ganglia 由 gmond.gmetad 和 gweb 三部分组成. gmond(Ganglia Monitoring Daemon)是一种轻量级服务,安装在每台需要收集指标数据的节点主机上.使用 gmond,你可以很容易收集很多系统指标数据,如 CPU.内存.磁盘.网络和活跃进程的数据等. gmetad(Ganglia Meta Daemon)整合所有信息,并将其以 RRD 格式存储至磁盘的服务. gweb(Ganglia Web)Ganglia 可视化工具,gweb 是一种利用浏览器显示…

Nagios监控ganglia的指标

这是nagios与ganglia整合的一部分内容 . 通常我们会把ganglia的监控发送给一个主机,我们可以在这个主机上执行nc localhost 8649 可以获取到所有发往这个主机的信息,以xml的形式查看. nagios监控ganglia的指标的方法就是使用这个思路,check_ganglia.py 先连通ganglia_host,然后获取所有的xml,然后再解析xml,解析的时候找到匹配的主机名,然后再找到下面的metric和值,与你传进来的critical与waring的进行匹配,…

Hadoop YARN学习监控JVM和实时监控Ganglia、Ambari（5）

Hadoop YARN学习监控JVM和实时监控Ganglia.Ambari(5) 1.0 监控ResourceManager进程Java虚拟机中堆空间的特定部分. jstat工具,在JDK的bin目录,可以显示大量JVM统计信息. 1.1 JVM分析一个Java虚拟机(JVM)进程被分为3个区(代),具体分为年轻代(young generation).年老代(tenured generation)和持久代(permanent generation) 年轻代被分为三个子区域:Eden(区),第一…

Flume实时监控目录sink到hdfs，再用sparkStreaming监控hdfs的这个目录，对数据进行计算

目标:Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算 1.flume的配置,配置spoolDirSource_hdfsSink.properties,监控本地的一个目录,上传到hdfs一个目录下. agent1.channels = ch1agent1.sources = spoolDir-source1agent1.sinks = hdfs-sink1 # 定义channelagent1.channels.ch1.type =…

Flume(4)-监控模型

一. 监控端口数据首先启动Flume任务,监控本机44444端口,服务端: 然后通过netcat工具向本机44444端口发送消息,客户端: 最后Flume将监听的数据实时显示在控制台. 1. 安装netcat sudo yum install -y nc 功能描述:netstat命令是一个监控TCP/IP网络的非常有用的工具,它可以显示路由表.实际的网络连接以及每一个网络接口设备的状态信息. 基本语法:netstat [选项] 选项参数: -t或--tcp:显示TCP传输协议的连线状况: -u…

Flume的监控参数

参考 flume的http监控参数说明普通的flume启动命令 bin/flume-ng agent -c conf -f conf/flume-conf.properties -n agent -Dflume.root.logger=INFO,console 日志信息在终端输出,只有去掉这个参数,日志才能在log4j和logback中输出 -Dflume.root.logger=INFO,console 如果要加上http监控的话 bin/flume-ng agent -c conf -f…

第1节 flume：7、flume的监控文件夹，实现数据收集到hdfs上

1.2.2 采集案例 1.采集目录到HDFS 需求分析结构示意图: 采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素 l 数据源组件,即source ——监控文件目录 : spooldir spooldir特性: 1.监视一个目录,只要目录中出现新文件,就会采集文件中的内容 2.采集完成的文件,会被agent自动添加一个后缀:COMPLETED 3.所监视的目录中不允许重复出现相同文件名的文件 l 下沉…

nagios监控ganglia指标，并配置告警

背景:nagios的监控插件在轻量级方面不如ganglia的gmond,且ganglia在指标监控方面尤其突出的优势,而nagios在配置告警方面也比较方便,正好可以弥补ganglia无法配置告警通知的缺陷,所以,准备配置两个结合使用——ganglia监控.展示指标,告警通过nagios发出…

开源计算机集群监控Ganglia应用视频

Ganglia源于Berkeley发起的一个开源集群监视项目,设计用于监测数上千节点的计算机集群.它包含gmond.gmetad以及一个Web前端.可以用来监控系统处理器 .内存.硬盘 I/O.网络流量等信息,通过图表很容易见到每个节点的工作状态,对分配系统资源,提高系统整体性能起到重要作用,搭建计算机集群不易,集群的监控系统更加困难,下面我将一个实际项目中的部分使用情况展示给大家.更多的内容可以参见<Linux企业应用案例精解>一书的主机监控章节,那里有非常详细的关于Ganglia的安装配置…

Flume 知识点（六）Flume 的监控

简述使用 Flume 实时收集日志的过程中,尽管有事务机制保证数据不丢失,但仍然需要时刻关注 Source.Channel.Sink 之间的消息传输是否正常. 比如,SouceChannel 传输了多少消息,ChannelSink 又传输了多少,两处的消息量是否偏差过大等等. Flume 为我们提供了 Monitor 的机制:http://flume.apache.org/FlumeUserGuide.html#monitoring 通过Reporting 的方式,把过程中的Counter都打…

Flume案例Ganglia监控

Flume案例和Flume监控系统的使用: 安装将apache-flume-1.7.0-bin.tar.gz上传到linux的/opt/software目录下解压apache-flume-1.7.0-bin.tar.gz到/opt/module/目录下 [hadoop@datanode1 software]$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/ 3. 修改apache-flume-1.7.0-bin的名称为flume…

大数据技术之_09_Flume学习_Flume概述+Flume快速入门+Flume企业开发案例+Flume监控之Ganglia+Flume高级之自定义MySQLSource+Flume企业真实面试题（重点）

第1章 Flume概述1.1 Flume定义1.2 Flume组成架构1.2.1 Agent1.2.2 Source1.2.3 Channel1.2.4 Sink1.2.5 Event1.3 Flume拓扑结构1.4 Flume Agent内部原理1.5 Hadoop三大发行版本第2章 Flume快速入门2.1 Flume安装地址2.2 安装部署第3章 Flume企业开发案例3.1 监控端口数据官方案例3.2 实时读取本地文件到HDFS案例3.3 实时读取目录文件到HDFS案例3.4 单数据源多…

flume监控之ganglia

对于日志来说,我觉得监控意义不大,因为写的速度一般不会特别快,但是如果是spooldir source,里面一小时放入十几G的数据让flume解析,特别是在结合kafka或者其他框架的话,监控就显得重要了,可以分析整个架构的瓶颈 flume的监控是基于json的,通过jmx产生metrix数据,可以通过web直接访问得到json数据,但是不够直观,也可以交由其他监控框架接收展示,官网上就简单描述了ganglia的方式安装并启动ganglia(http://www.cnblogs.com/adm…

Flume(5)-Ganglia监控

一. 安装Ganglia 1. 安装httpd服务与php sudo yum -y install httpd php 2. 安装其他依赖 sudo yum -y install rrdtool perl-rrdtool rrdtool-devel sudo yum -y install apr-devel 3. 安装ganglia sudo rpm -Uvh http://dl.fedoraproject.org/pub/epel/6/x86_64/epel-release-6-8.noarc…

zabbix Server 4.0监控Flume关键参数

zabbix Server 4.0监控Flume关键参数作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. Flume本身提供了http, ganglia的监控服务.当然我们也可以使用JMX的方式去监控Flume,然后只要能集成JMX监控的监控系统应该都能实现简介监控Flume,有网友说,监控Flume我们需要修改其源码让他支持zabbix监控,当然这得让咱们运维人员懂Java开发才行,而且还得有一定的功底,要是改出Bug了反而麻烦.Ganglia监控起来的确方便,但我们公司的监…

open-falcon监控Flume

1.首先你需要知道flume的http监控端口是否启动请参考博文 Flume的监控参数即在 http://localhost:3000/metrics 可以访问到如下内容 2.在open-falcon中安装flume监控插件,参考官方文档 http://book.open-falcon.org/zh_0_2/usage/flume.html 官方文档写的很不清楚,请参考本文接下来给出的步骤首先修改agent的配置文件,agent负责的是采集数据,同时有调度脚本插件的功能 ~/softwar…

【翻译】Flume 1.8.0 User Guide(用户指南) Processors

翻译自官网flume1.8用户指南,原文地址:Flume 1.8.0 User Guide 篇幅限制,分为以下5篇: [翻译]Flume 1.8.0 User Guide(用户指南) [翻译]Flume 1.8.0 User Guide(用户指南) source [翻译]Flume 1.8.0 User Guide(用户指南) Sink [翻译]Flume 1.8.0 User Guide(用户指南) Channel [翻译]Flume 1.8.0 User Guide(用户指南) Proces…

flume 架构设计优化

对于企业中常用的flume type 概括如下:ource(获取数据源): exec (文件) spoolingdir (文件夹) taildir(文件夹及文件的变动) kafka syslog http channel(管道): mem file kafka sink(将channel中的数据发送到目标地址): hdfs hive hbase ES 从集群可用性,可靠性,可扩展性和兼容性等方面,对架构优化进行设计. 1.可用性(availablity) 可用性(availablity)指固定…

Flume框架的学习使用

Flume框架的学习使用 Flume简介 Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集.聚集.移动的服务. Flume基于流失架构,容错性强,也很灵活简单 Flume,kafka用来实时进行数据收集,Spark,Storm用来实时处理数据,impala用来实时查询数据. Flume角色 Source 用于采集数据,Source是产生数据流的地方,同时Source会将产生的数据流传输到Channel. Channel 用于桥接Source和Sink,类似于一个队列. Sink…

大数据技术之Flume

第1章概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume基于流式架构,灵活简单. 1.2 Flume组成架构 Flume组成架构如图1-1,图1-2所示: 图1-1 Flume组成架构图1-2 Flume组成架构详解下面我们来详细介绍一下Flume架构中的组件. 1.2.1 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是Flume数据传输的基本单元. Agent主要有3个…

Hadoop学习笔记—19.Flume框架学习

START:Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. 一.Flume基础理论 1.1 常见的分布式日志收集系统 Scribe是facebook开源的日志收集系统,在facebook内部已经得到大量的应用. Chukwa 是一个开源的用于监控大型分布式系统的数据收集系统.这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了…

Flume -- 开源分布式日志收集系统

Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. 一.Flume基础知识 1.数据流模型 Flume的核心是把数据从数据源收集过来,再送到目的地.为了保证输送一定成功,在送到目的地之前,会先缓存数据,待数据真正到达目的地后,删除自己缓存的数据. Flume传输的数据的基本单位是Event,如果是文本文件,通常是一行记录,这也是事务的基本单位.Event从S…

Apache Flume 1.7.0 各个模块简介

Flume简介 Apache Flume是一个分布式.可靠.高可用的日志收集系统,支持各种各样的数据来源,如http,log文件,jms,监听端口数据等等,能将这些数据源的海量日志数据进行高效收集.聚合.移动,最后存储到指定存储系统中,如kafka.分布式文件系统.Solr搜索服务器等: Apache Flume主要有以下几大模块组成: 数据源采集(Source) 数据拦截(Interceptor) 通道选择器(Channel Selector) 数据通道(Channel) Sink处理器(Si…