如果你目的很明确就是冲着标题来的,不爱看我唠叨,请直接进入第二个分割线之后的内容。

其实之前就是有做Swift监控平台的打算的,但是因为没什么硬性需求么,也不要紧的,就一直搁置了。最近实验室来了个大二升大三的小MM体验生活,老大就让我们带着她一起做这个东西,主要好处就是可以多学些实用的技术,了解云存储的基本架构,同时也不需要深入细节,难以理解。

好吧,我就是个爱说废话和铺陈的妞,这样才体现“原创”不是?O(∩_∩)O哈哈~ 进入正题。。。

================================被38°杭州烤化掉的分割线================================

关于对分布式文件系统的监控,主要分为两个部分:机器性能相关的监控 和 系统运行状态 的监控。

机器性能相关的监控:这个比较泛化,也比较成熟,主要是对CPU、内存、网络、磁盘I/O等信息的监控,我们没必要重复造轮子,可以选择比较方便强大的开源工具来搭建,这里我们选择Ganglia;

系统运行状态的监控:这个与不同的文件系统相关,虽然不同DFS也有一些共性的内容,比如账户、日志、请求量等,但是具体到每一个DFS的实现其实还是有很大不同的,因此需要特别的定制。考虑到swift中ring的概念、ReST接口、账户创建等信息,这一个部分我们打算自己来开发,同时可以提供ring创建,账户添加等基本的管理员工具;

整合:提供统一入口、统一风格,这就要求我们需要对Ganglia做一定的二次开发,从而与swift-related 监控部分整合,考虑到ganglia web front使用的是PHP语言开发的,运行环境为Apache2。而我们打算用JSP对swift-related部分进行开发,运行在Tomcat中,因此需要整合PHP + JSP环境,这个再之后再介绍。

好了,以上就是整体的思路了,step by step,本篇主要介绍Ganglia。

=====================================Ganglia=====================================

Ganglia是一个集群监控工具,由UC Berkeley创建并开源。Ganglia的中文意思是神经中枢,现在支持多部分操作系统(包括linux、unix、windows),可支持2000个节点的网络监控(当然这不是上限,只是一个大集群使用的范例)。

基本结构

Ganglia底层使用RRDTool获得数据,Ganglia主要分为两个进程组件:

  • gmond(ganglia monitor deamon)
  • gmetad(ganglia metadata deamon)

其中,gmond运行在集群每个节点上,收集RRDTool产生的数据;gmetad运行在监控服务器上,收集每个gmond的数据。Ganglia还提供了一个PHP实现的web front end,一般使用Apache2作为其运行环境,通过Web Front可以看到直观的各种集群数据图表。

Ganglia的层次化结构做的非常好,由小到大可以分为node -> cluster -> grid,这三个层次。

  • 一个node就是一个需要监控的节点,一般是个主机,用IP表示。每个node上运行一个gmond进程用来采集数据,并提交给gmetad。
  • 一个cluster由多个node组成,就是一个集群,我们可以给集群定义名字。一个集群可以选一个node运行gmetad进程,汇总/拉取gmond提交的数据,并部署web front,将gmetad采集的数据用图表展示出来。
  • 一个grid由多个cluster组成,是一个更高层面的概念,我们可以给grid定义名字。grid中可以定义一个顶级的gmetad进程,汇总/拉取多个gmond、子gmetad提交的数据,部署web front,将顶级gmetad采集的数据用图表展示出来。

显然,这种方式非常灵活,可以实现多种结构的数据监控。由下图,我们可以清晰的看出这种层次化的结构,和不同的部署方式。

集群部署

在这里,仅介绍ubuntu上的部署方式,因为很简单!只需要安装两个包:ganglia-monitor和ganglia-webfrontend。其中ganglia-webfrontend只需要安装在提供页面展示的服务器上,并且如果你的ubuntu没有PHP和Apache2环境的话,它也会自动帮你安装。

在这里我直接介绍多播(ganglia默认的方式,此外还支持单播)方式的集群部署,至于单机的方式,其实只要把ganglia-monitor和ganglia-webfrontend装在一台机器上就可以了。

1)集群环境
  gmond:4台(192.168.1.101、192.168.1.102、192.168.1.103、192.168.1.104)
  gmetad + ganglia web:1台(192.168.1.104)
  操作系统:Ubuntu 11.04

2)部署过程
  在192.168.1.101、192.168.1.102、192.168.1.103这三台仅运行gmond的节点上安装ganglia-monitor:

sudo apt-get install ganglia-monitor

  在192.168.1.104这台包含所有ganglia服务的节点上安装ganglia-monitor和ganglia-webfrontend,这个过程会默认为没有Apache和PHP的环境的系统安装Apache2和PHP:

sudo apt-get install ganglia-webfrontend ganglia-monitor

  在ganglia-webfrontend安装完毕后,ganglia-webfrontend这个包默认会将Web相关的代码安装在”/usr/share/ganglia-webfrontend/”路径下,这样apache访问不到。因此,可以使用软链接,或者直接将目录移到”/var/www/”目录下。

sudo ln -s /usr/share/ganglia-webfrontend/ /var/www/ganglia

  或者:

sudo mv /usr/share/ganglia-webfrontend/ /var/www/ganglia

3)配置

  在我们的监控系统中,将cluster命名为swift,grid命名为MyGrid,并采用组播的方式。

  配置gmond:打开/etc/ganglia/gmond.conf 修改 cluster name :

cluster {
name = "swift"
owner = "unspecified"
latlong = "unspecified"
url = "unspecified"
}

  配置gmetad:打开/etc/ganglia/gmetad.conf 添加数据源 和 网格名称:

data_source "swift" localhost
gridname "MyGrid"

4)启动
  重启192.168.1.104的gmated:

service gmated restart

  重启每个节点的gmond(注意服务名是ganglia-monitor,不是gmond!):

service ganglia-monitor restart

5)页面

  完成以上工作后,ganglia的部署就完成了,现在你可以在192.168.1.104上直接打开浏览器访问 http://localhost/ganglia,就能看到图形界面啦!或者你可以通过IP直接访问,如果修改了端口记得加上新端口访问。

  这里给出一张单机部署的web front end截图,示意示意 ^_^~ 这个单机的服务,我将其cluster命名为“yuki-cluster”,哈哈

至此,部署的工作就完成啦!=D

注意点

  • 本打算使用单播的方式来部署,即每个gmond配置文件中指定gmetad的IP地址,但是失败了。
  • 在采用多播的方式时,如果gmetad所在的节点不运行ganglia-monitor,也无法采集到其他纯ganglia-monitor的数据,不知道为什么。
  • 如果在启动的过程中出现数据不一致,比如CPU明明是4核,但只看到1个,则有可能是ganglia-monitor的启动时间与gmetad有冲突,重启一下即可。

参考文章

Ganglia 体系结构及功能介绍

Ubuntu10.04 Ganglia安装配置

Ganglia监控Hadoop及Hbase集群性能(安装配置)

  如果以后成功实现了单播部署,以及只运行gmetad的方式,再回来补充哈。更多详细的内容,可以看我给出的参考文章 :)

---------------------
作者:YUKI小糖
来源:CNBLOGS
原文:https://www.cnblogs.com/yuki-lau/p/3201110.html
版权声明:本文为作者原创文章,转载请附上博文链接!

[转]分布式监控工具Ganglia 介绍 与 集群部署.的更多相关文章

  1. 分布式监控工具Ganglia 介绍 与 集群部署.

    如果你目的很明确就是冲着标题来的,不爱看我唠叨,请直接进入第二个分割线之后的内容. 其实之前就是有做Swift监控平台的打算的,但是因为没什么硬性需求么,也不要紧的,就一直搁置了.最近实验室来了个大二 ...

  2. 分布式协调服务之Zookeeper集群部署

    一.分布式系统概念 在聊Zookeeper之前,我们先来聊聊什么是分布式系统:所谓分布式系统就是一个系统的软件或硬件组件分布在网络中的不同计算机之上,彼此间通过消息传递进行通信和协作的系统:简单讲就是 ...

  3. 分布式消息系统之Kafka集群部署

    一.kafka简介 kafka是基于发布/订阅模式的一个分布式消息队列系统,用java语言研发,是ASF旗下的一个开源项目:类似的消息队列服务还有rabbitmq.activemq.zeromq:ka ...

  4. kafka分布式消息队列介绍以及集群安装

    简介 首先简单说下对kafka的理解: 1.kafka是一个分布式的消息缓存系统: 2.kafka集群中的服务器节点都被称作broker 3.kafka的客户端分为:一是producer(消息生产者) ...

  5. Hadoop系列之(二):Hadoop集群部署

    1. Hadoop集群介绍 Hadoop集群部署,就是以Cluster mode方式进行部署. Hadoop的节点构成如下: HDFS daemon:  NameNode, SecondaryName ...

  6. Ganglia监控Hadoop集群的安装部署[转]

    Ganglia监控Hadoop集群的安装部署 一. 安装环境 Ubuntu server 12.04 安装gmetad的机器:192.168.52.105 安装gmond的机 器:192.168.52 ...

  7. Dubbo+zookeeper构建高可用分布式集群(二)-集群部署

    在Dubbo+zookeeper构建高可用分布式集群(一)-单机部署中我们讲了如何单机部署.但没有将如何配置微服务.下面分别介绍单机与集群微服务如何配置注册中心. Zookeeper单机配置:方式一. ...

  8. Kubernetes(k8s)集群部署(k8s企业级Docker容器集群管理)系列之flanneld网络介绍及部署(三)

    0.前言 整体架构目录:ASP.NET Core分布式项目实战-目录 k8s架构目录:Kubernetes(k8s)集群部署(k8s企业级Docker容器集群管理)系列目录 一.flanneld介绍 ...

  9. 使用Kafka的一些简单介绍: 1集群 2原理 3 术语

    目录 第一节 Kafka 集群 Kafka 集群搭建 Kafka 集群快速搭建 第二节 集群管理工具 集群管理工具 集群 Issues 第三节 使用命令操纵集群 第四节 Kafka 术语说明 第五节 ...

随机推荐

  1. Mac 电脑如何卸载 node

    因为刚入手「 Mac 」很多淫技还不懂,在一次使用 npm install 的时候安装出错,提示为 npm 与 node 的版本有问题,所以就想着卸载重新装一个版本. 但是因为刚使用「 Mac 」所以 ...

  2. 浅析Vue响应式原理(三)

    Vue响应式原理之defineReactive defineReactive 不论如何,最终响应式数据都要通过defineReactive来实现,实际要借助ES5新增的Object.definePro ...

  3. let 和const命令

    ES6新增了let命令,用来声明变量.它的用法类似于var,但是所声明的变量,只在let命令所在的代码块内有效.换句话说,let声明了块级作用域. 输出 看下面代码: 输出: 变量i是var声明的,在 ...

  4. kubernetes1.4新特性:支持sysctl命令

    背景介绍 sysctl是一个允许改变正在运行中的Linux系统内核参数的接口.可以通过sysctl修改Linux系统内核中的TCP/IP 堆栈和虚拟内存系统的高级选项,而且不需要重新启动Linux系统 ...

  5. kubernetes1.4新特性:支持两种新的卷插件

    背景介绍 在Kubernetes中卷的作用在于提供给POD持久化存储,这些持久化存储可以挂载到POD中的容器上,进而给容器提供持久化存储. 从图中可以看到结构体PodSpec有个属性是Volumes, ...

  6. Hibernate→ 《Hibernate程序开发》教材大纲

    Hibernate ORM 概览 Hibernate 简介 Hibernate 架构 Hibernate 环境 Hibernate 配置 Hibernate 会话 Hibernate 持久化类 Hib ...

  7. 2019.10.22 用TCP实现服务端并发接收

    client import socket client = socket.socket() client.connect( ('127.0.0.1',8888) ) while 1: msg = in ...

  8. Java版阿里云通信短信发送API接口实例(新)

    阿里云通信(原名阿里大于)的短信服务(Short Message Service)是阿里云为用户提供的一种通信服务的能力,支持快速发送短信验证码.短信通知等. 完美支撑双11期间2亿用户,发送6亿短信 ...

  9. Directx11教程(33) 纹理映射(3)

    原文:Directx11教程(33) 纹理映射(3)       现在我们在myTutorialD3D11_5的基础上,来逐步编码实现纹理映射,之所以在myTutorialD3D11_5基础上改写,是 ...

  10. metro扁平UI网页组件

    在线演示 本地下载