云计算平台管理的三大利器Nagios、Ganglia和Splunk

综合利用Nagios、Ganglia和Splunk搭建起的云计算平台监控体系，具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统，就可轻松管理Hadoop/HBase云计算平台。

云计算早已不是停留在概念阶段了，各大公司都购买了大量的机器，开始正式的部署和运营。而动辄上百台的性能强劲的服务器，为运营管理带来了巨大的挑战。

如果没有方便的监控报警平台，对于管理员而言犹如噩梦，每天都将如救火队员一样，飞快地敲击键盘，用原始的Unix命令在多台机器中疲于奔命。
如果没有好的日志管理平台，对于开发者Troubleshooting更是一件泪流满面的事情。
而如果你是运维团队的总负责人，简洁清晰的Report则非常重要。Stakeholder们动不动就可能问起系统的SLA、机器的利用率等诸多问题，毕竟，公司为此投入了巨大的资金和人力。

朋友们，当我们管理起公司寄予厚望的云计算平台时，当我们面对如此多充满挑战的实际问题时，该怎么办？

概述

我们在搭建趋势云计算平台时，遇到了很多的问题和挑战。开始搭建时，第一次来了那么多性能强劲的机器，我们在感到兴奋的同时，也不免有些顾虑。大家坐在一起讨论，问题就列了满满一白板。

出了问题怎么办，有没有预警机制？
有没有可视化的管理界面？
管理平台需要自己开发吗？开发难度有多大？
有没有开源的管理工具？
那么多日志分布在各个机器上，有没有更有效的方法管理？
能否生成好的报表？
机器宕机，管理员能否收到短信通知？
如何做性能调优？
扩容升级时，能否给出依据？

带着这些问题，我们开始了自己的云计算平台管理和运营之旅，一路走来，收获颇丰。现在基本上形成了如图1所示的一整套云计算平台监控体系。

图1 云计算平台监控架构

在这个系统中，我们综合利用了Nagios、Ganglia和Splunk，搭建起云计算平台监控体系，使其具备错误报警、性能调优、问题追踪和自动生成运维报表的功能。有了这套系统，我们终于能够轻松管理Hadoop/HBase云计算平台了。接下来将简单介绍它们的特点和功能。

Nagios：云计算平台的智能报警器

总不能天天盯着机器看吧，因此我们首先关心的是机器的监控与报警。最理想的境界是：如果机器出故障了，我能第一时间处理；如果机器没有问题（最好永远没有问题），我能去喝茶、钓鱼和睡大觉。

发现机器有没有问题，对我们而言不是什么难事。写个脚本，Ping一下IP，Telnet每台机器的Service端口，如果增加了新机器就改改配置即可。但这样也太原始了吧，可视化效果差，不好维护，没有层次，不好管理，出不来报表，总不能老是用Excel人工写报表吧。有没有更好的方法呢？

有，你可以用Nagios。

Nagios是一个可运行在Linux/Unix平台之上的开源监视系统，可以用来监视系统运行状态和网络信息。Nagios可以监视所指定的本地或远程主机以及服务，同时提供异常通知功能。

Nagios可以提供以下几种监控功能。

监控网络服务（SMTP、POP3、HTTP、NNTP、Ping等）。
监控主机资源（处理器负荷、磁盘利用率等）。
简单的插件设计使得用户可以方便地扩展自己服务的检测方法。
并行服务检查机制。
具备定义网络分层结构的能力，并使用“parent”主机定义来表达网络主机间的关系，这种关系可被用来发现和明晰主机宕机或不可达状态。
当服务或主机问题产生与解决时将告警发送给联系人（通过电子邮件、短信、用户定义方式）。
具备定义事件处理功能，可以在主机或服务的事件发生时获取更多问题定位。
自动的日志回滚。
可以支持并实现对主机的冗余监控。
可选的Web界面用于查看当前的网络状态、通知和故障历史、日志文件等。

Nagios最好用的地方就是它将这些每天管理员做的工作自动化，你只需设定好要监听的端口即可，它会默默地工作，帮忙定时地去检测服务端口的状态，一旦发现问题，会及时发出报警。报警可以是电子邮件也可以是手机，从而使得管理员第一时间就能收到系统的状况。

Nagios的报表功能也很强大。管理员可以很容易地得到每天、每周和每月的Service运行状况。

图2 SPN 后台运行的所有Service的当前状态

如图2所示，红色部分清楚地标注有问题的机器，点开链接，就可以得到有问题机器的情况。虽然在HBase中，几台Region Server宕机不会对整体服务产生大的影响，但多少会影响到系统的Performance。而且，如果某几台Region Server频繁宕机，对整个系统的稳定性也会产生不好的影响。有了Nagios，我们可以快速定位有问题的机器，及时地将一些机器移除出HBase系统，待调整好了再上线运行，以保证系统的稳定性。

现在，Nagios已经成为了很多公司必备的监控工具。只需要简单地配置，就可以实现强大的功能，将管理员从日常烦琐的工作中解放出来。

有了Nagios，哪怕就是管理上千台机器，也不会手忙脚乱，而是有一种统领千军、运筹帷幄的感觉。

Ganglia：看到云计算平台的方方面面

Nagios的确不错，但你是不是真的可以喝茶、钓鱼、睡大觉呢？显然还不行。有了Nagios，你基本上可以做个优秀的救火队员，能在事发第一时间到达现场、处理事故。但如何防患于未然，真正做到运筹帷幄、游刃有余呢？

我们需要更加精确的数据，能够看到云计算平台的方方面面，能根据这些数据，做出性能调整、升级、扩容等的决策，从而保证Service能够满足不断增长的业务需求。

这时候，你需要Ganglia。

Ganglia是UC Berkeley发起的一个开源实时监视项目，用于测量数以千计的节点，为云计算系统提供系统静态数据以及重要的性能度量数据。Ganglia系统基本包含以下三大部分。

Gmond：Gmond运行在每台计算机上，它主要监控每台机器上收集和发送度量数据（如处理器速度、内存使用量等）。

Gmetad：Gmetad运行在Cluster的一台主机上，作为Web Server，或者用于与Web Server进行沟通。

Ganglia Web前端：Web前端用于显示Ganglia的Metrics图表。

Hadoop和HBase本身对于Ganglia的支持非常好。通过简单的配置，我们可以将Hadoop和HBase的一些关键参数以图表的形式展现在Ganglia的Web Console上。这些对于我们洞悉Hadoop和HBase的内部系统状态有很大的帮助。

在Hadoop的conf文件夹下面，找到hadoop-metrics.properties，配置好Ganglia的Server即可。这里要注意，Ganglia 3.0和Ganglia 3.1的区别，它们使用了不同的class。

dfs.class=org.apache.hadoop.metrics.ganglia.GangliaContext31

dfs.period=10

dfs.servers={Ganglia_Server}:8649

有了这些图表，Hadoop和HBase就不再是一个黑盒。无论是Hadoop的Namenode、Datanode，还是HBase的MasterServer、RegionServer任何时刻的情况，都会一目了然。由于图标的跨度可以是小时、天、月甚至是年，这样，就可以非常方便地定期生成周报、月报和年报。同时，根据图中Metrics的状况，我们可以通过调整参数、增加内存和硬盘、增加机器等的方法调整单个机器或者整个Service的性能。

图3 Hadoop其中一个DataNode的Metrics

Nagios 最大的问题在于不能洞悉到Service内部的状况。像Hadoop、HBase这样的分布式系统，一个节点的故障并不等于整个Service的故障，影响的只是Service的性能。所以，在测定Service的SLA时，我们不能以某一台机器的故障作为Service故障的评判标准。比如在我们的HBase SLA的设定上，我们定义了HBase Service完全不能工作的评判标准如下。

Master Server 联系不上。
所有RegionServer 都无法联系上。
-ROOT- 表无法访问。
.META. 表无法访问。

图4 Ganglia对Hadoop/HBase使用情况的监测

那么，我们就可以根据这个规则定义SLA，通过定期调用HBaseAdmin相应API ，将测试的结果发给Ganglia。采用同样的方法，我们还可以自定义一些规则，监视HBase Master、Zookeeper等的情况。

通过这些方法，我们完全能够针对Hadoop/HBase使用的实际情况，做出Service级别而不是机器级别的监控系统并生成报表。

此外，Ganglia还可以通过Server反馈回来的Load信息，给出各个机器的Load情况，给我们做升级和扩容提供依据。

如图5所示，Ganglia分别会用不同颜色，标注出当前时刻的机器Load分布情况。如果Load过重，就应该检查机器的具体使用情况。

图5 HBase Cluster Load Metrics

Ganglia的安装配置，可以参考：http://www.spnguru.com/?p=604。

Splunk：像查Google一样查日志

有了Nagios和Ganglia，算是成功了一大半。作为一名优秀的管理员，我们需要具备一定的Troubleshooting能力，对一些常见的问题能给出解决方案。那么，对日志的分析就必不可少。

但Hadoop/HBase的日志分布在各个机器上面，而日志之间关联性强。Client端的错误有可能是Region Server引起，而Region Server的错误有可能是Zookeeper导致。有没有一个统一的日志管理平台呢？

众里寻它千百度，蓦然回首，我们找到了Splunk——日志界的Google。

很遗憾，Splunk不是开源的，但它的免费版本提供每天500MB日志索引。如果数据量较小，通过定义好Log的级别，基本上也能满足需求。但对于数据量较大的公司，就有些捉襟见肘。

Splunk支持AdHoc的日志搜索，而且可以与Nagios配合使用。比如Nagios报警某台RegionServer端口不可达，我们收到Notification后，登录Splunk，直接搜索shutdown和host名称，找到RegionServer退出的日志。点击详细信息，分析日志，就能快速定位问题。如图6所示。

图6 Splunk与Nagios配合使用进行日志搜索

对Hadoop和HBase有了进一步了解后，我们可以利用Splunk实时检测日志中的关键字，定义关键字规则，如监控“shutdown”、“quit”、“ERROR”、“Zookeeper Session Expired”等，一旦出现，利用Splunk的Notification功能，发出邮件通知管理员，管理员通过Splunk定位问题，就可以在系统真正出现问题之前，对系统进行调整，防患于未然。

具体Splunk的设置，可以参考：http://www.spnguru.com/?p=122。

总结

搭建一套云计算平台，强大的监控管理系统是必不可少的。当然，任何工具都不是万能的，在实际维护过程中，我们也发现，Nagios和Splunk经常出现误报，如果规则定义得不好，大量的警报邮件如潮水一样涌来，反而掩盖了真正的问题。可以说，在云计算平台的运维管理上，没有一劳永逸的事情，随着规模的不断增大和应用的不断多样化，需要大家不断地实践和总结。

云计算平台管理的三大利器Nagios、Ganglia和Splunk的更多相关文章

深入浅出OpenStack云计算平台管理(nova-compute/network)
一.本课程是怎么样的一门课程(全面介绍) 1.1. 课程的背景 OpenStack是一个由Rackspace发起.全球开发者共同参与的开源项目,旨在打造易于部署 ...
云计算平台简介（App Engine）
云计算平台简介(App Engine) 1 简介 App Engine: 应用程序引擎,是托管网络应用程序的云计算平台. 1.1 什么是云云计算通常简称为“云”,是一种通过 Inter ...
【充分利用你的Azure】将Azure用作云计算平台（1）
本文将围绕几个步骤来讲. 因为本人是MSP,微软送了150刀的额度给我随便使用.这篇文章是要讲将Azure用作云计算平台,对于我来说,我是做机器学习的,那么Azure就要有机器学习的平台. 本文的目的 ...
目前国际上所用云计算平台IaaS、PaaS、SaaS简介
随着云计算这个概念越来越为人所熟知,企业对云计算的重视程度也在日趋加深.这不仅是一种潮流,更体现了一种需求——数字化.现代化.科技化的整体需求.如今市场上云计算的运营商更是风起云涌,服务种类更是丰富繁 ...
运用Hadoop能否搭建完整的云计算平台?
Apache Hadoop 是一个用java语言实现的软件框架,在由大量计算机组成的集群中运行海量数据的分布式计算,它可以让应用程序支持上千个节点和PB级别的数据. Hadoop并不完全代表云计算,所 ...
[书目20140902]实战Windows Azure——微软云计算平台技术详解 --徐子岩
目录第1章云计算技术简介 1.1 云计算所要解决的问题 1.2 云计算平台的分类 1.3 微软云计算平台Windows Azure 1.3.1 高可用性 ...
1+X云计算平台运维与开发（中级）eNSP A~E卷试题+答案
1+X云计算平台运维与开发(中级)eNSP A~E卷试题+答案 A卷路由器管理(40分) 41 配置R1和R2路由器(路由器使用R2220),R1路由器配置端口g0/0/1地址为192.168.1 ...
OpenStack云计算平台框架
概: OpenStack是包含很多独立组件的一个云计算平台框架.在安装组件前,需要先将框架搭建出来,才能向其中放置组件. 搭建open stack云计算平台框架一.安装open stack云计算平 ...
APT攻击将向云计算平台聚焦
APT攻击作为一种高效.精确的网络攻击方式,在近几年被频繁用于各种网络攻击事件之中,并迅速成为企业信息安全最大的威胁之一. 近日,飞塔中国首席技术顾问X在谈及APT攻击时表示,随着云计算的不断发展普及 ...

随机推荐

2018.07.24 loj#107. 维护全序集（非旋treap）
传送门就是普通平衡树,可以拿来练非旋treap" role="presentation" style="position: relative;"&g ...
s28 LNMP架构服务搭建
nginx-location使用 location语法 location使用的语法例子为: location [=|~|~*|^~] uri{ 对location语法列表说明. |1ocation | ...
UVa 11178 Morley's Theorem (几何问题)
题意:给定三角形的三个点,让你求它每个角的三等分线所交的顶点. 析:根据自己的以前的数学知识,应该很容易想到思想,比如D点,就是应该求直线BD和CD的交点, 以前还得自己算,现在计算机帮你算,更方便, ...
201709011工作日记--Volley源码详解（二）
1.Cache接口和DiskBasedCache实现类首先,DiskBasedCache类是Cache接口的实现类,因此我们需要先把Cache接口中的方法搞明白. 首先分析下Cache接口中的东西, ...
IntelliJ IDEA 14 Keygen
package keygen; import java.math.BigInteger; import java.util.Date; import java.util.zip.CRC32; publ ...
day15(mysql之零碎知识)
数据完整性实体完整性实体: 表中一行(一行记录)代替一个实体实体完整性的作用: 标识每一行数据不重复. 约束类型: 主键约束, 唯一约束,自动增长列. 主键约束: 标识该列唯一,非空. 注: ...
（最短路 spfa）Wormholes -- poj -- 3259
http://poj.org/problem?id=3259 Wormholes Time Limit: 2000MS Memory Limit: 65536K Total Submissions ...
RepositionBars的用法和参数的意义（引用别人的）
MFC窗口位置管理详细分析及实例在一般用MFC编写的程序的窗口客户区中,可能有好几个子窗口(具有WM_CHILD风格的窗口).上边是工具栏,中间是视图窗口,下边是状态栏.三个窗口在框架的客户区里和 ...
西邮Linux兴趣小组2014级免试挑战题
原文链接:西邮Linux兴趣小组2014级免试挑战题又到了小组纳新的季节^_^,时间过的真快! 想起去年这会儿自己做免试题的时候根本找不着北@_@ 有幸今年能够在这里和大家分享免试挑战题,也正如我 ...
[FMX]在 FMX 程序中绘制单像素宽度的直线 [FMX]在 FMX 程序中绘制单像素宽度的直线
[FMX]在 FMX 程序中绘制单像素宽度的直线 2017-10-09 • Android.Delphi.教程 • 暂无评论 • swish •浏览 353 次在前面的一篇文章中,我介绍了一种绘制低 ...

云计算平台管理的三大利器Nagios、Ganglia和Splunk

云计算平台管理的三大利器Nagios、Ganglia和Splunk的更多相关文章

随机推荐

热门专题