【译】Kubernetes监控实践(2):可行监控方案之Prometheus和Sensu
本文介绍两个可行的K8s监控方案:Prometheus和Sensu。两个方案都能全面提供系统级的监控数据,帮助开发人员跟踪K8s关键组件的性能、定位故障、接收预警。
拓展阅读:Kubernetes监控实践(1):K8s的工作原理与监控实践
一、K8s监控之Prometheus
1.1 简介
Prometheus是针对容器和微服务的开源监控预警工具,功能稳健,适用于开发流程中的云端管理员和开发人员等各个相关方。Prometheus定时聚合配置对象中的指标数据,评估规则表达式,展示结果,发送预警。
Prometheus不仅能够监控预定义指标,还能实现多维数据模型,进行深度分析,并针对多个指标建立关联,从多个角度为开发人员和管理员提供数据支持。
1.2 工作原理
Prometheus是K8s环境的附加层。首次安装时应定义数据采集参数和数据采集时间间隔。Prometheus既能实时监控K8s节点,也能对监控数据进行定时分析。Prometheus也可以针对节点失效等故障发送预警。
1.3 Prometheus Operator
很多用户会混淆controller和operator。K8s Operator是指Controller向K8s API中添加新的对象、配置管理Prometheus等应用的模式。简而言之,operator是针对特定领域的controller。
PrometheusOperator简化了Prometheus在K8s中的运行,不需要改变K8s的配置。使用Prometheus Operator可以轻松监控K8s的服务。可以通过预定义的.yml文件运行Prometheus。Prometheus Operator能够创建、配置并管理K8s上的所有监控实例。部署新应用时,K8s会创建新的pod(容器)。创建完毕后,原有pod会被销毁。Prometheus持续监控API,如发现不一致,则基于服务或pod变化创建新的Prometheus配置。
1.4 核心组件
作为一款稳健的监控工具,Prometheus从服务上拉取数据,不需要服务主动推送数据。不过Prometheus提供推送入口,但无法拉取数据时可以接受服务推送上来的数据。
此外,Prometheus支持将时间序列与指标名称和键值对关联起来,简化了对多云端的监控。Prometheus不仅监控应用全局,还能钻取到微服务层面。用户可通过查询功能管理数据,了解应用状况;也可以使用PromQL创建图表和表格,实现数据可视化,并根据具体参数生成预警。
Prometheus的Web控制台展示了所有功能和工具。用户可通过正则表达式和高级PromQL检索条件创建数据集和预警。Prometheus还支持外网访问。
1.5 优势
Prometheus最大的优势在于简单灵活,可以实现监控的多维数据模型。用户可以轻松搭建容器集群的监控框架,还可以结合Grafana,进一步提高监控数据的可视化水平。
Prometheus可以通过K8s的本地服务发现配置采集node、pod和服务指标。用户可直接定义表达式,创建预警,不需要在不同的监控系统中来回切换。
Prometheus的抓取能力能够集成到K8s、Docker和StatsD等工具中。用户还可以通过Web GUI配置预警、管理图表。
不过Prometheus也存在不足:数据模型受限。Prometheus默认的时序数据采集模型有利有弊:一方面,这种模型有助于按照标准格式采集数据;另一方面,标准化数据格式导致数据模型受限。Prometheus通过discovery机制与K8s保持通信,因此存在延迟。
二、K8s监控之Sensu
2.1 简介
Sensu是多云端容器基础设施监控工具。Sensu agent是跨平台事件生成器,用户可通过执行service check监控系统和服务的健康状况,同时采集分析metrics,不仅提供预警或事件管理功能、监控API、客户端库以及多脚本或编程语言插件,还支持自定义工作流,丰富了Sensu能力。
Prometheus通过拉取的方式主动抓取数据,而Sensu则采用消息总线的通信机制,通过发布/订阅(Pub/Sub)的方式推送或拉取数据。
2.2 工作原理
Sensu使用本地插件从StatsD库、Prometheus exporter、Nagios插件、SNMP陷阱等主流程序中采集数据。不同于Prometheus等其他监控工具,Sensu开箱即用,支持多云端环境,用户配置框架后即可提供高可用性。
Sensu提供event filter、mutator和operator handler,支持创建并自动化模型工作量。这样,外部监控工具的数据便可与Sensu的监控数据整合,形成基于事件的监控路径。
2.3 核心组件
Sensu针对K8s容器优化了自动发现能力。用户可针对K8s和Docker等容器环境轻松配置监控check和collector,也可以针对K8s所有组件和运行在K8s上的应用配置多个check。
Sensu也支持本地集成和插件,可以与日志工具和Prometheus同时使用。用户可同时运行Sensu和Prometheus,处理不同的数据集。Sensu可以采集StatsD metrics,并将采集结果写入Prometheus。
Sensu还能在K8s环境中运行。假设一开始将Sensu部署在某个容器中,后来决定将整个应用迁移到其他容器环境中。迁移完成后,Sensu agent依然能够在新的环境中正常运行,也能被Sensu发现,因为Sensu具备自动发现机制。
2.4 在K8s中的应用
Sensu可扩展性强,可随着部署应用和云环境的增加不断扩展,提供具体的功能监控服务。Sensu监控对象的数量没有上限,也不会因为监控对象的增加变得更加复杂。
三、K8s监控之Sensu+Prometheus
同时运行Sensu和Prometheus能够提高监控的可见性,实现各自功能的优势互补。
3.1 工作原理
SensuPrometheus Collector是Sensu Check插件,聚合从Prometheus exporter或Prometheus query API抓取的数据。采集的数据以Influx(默认)、Graphite、JSON格式存储在STDOUT中。
SensuPrometheus Collector集成了Sensu的工作量自动化能力和Prometheus的数据抓取能力。用户可根据需求自行设计实现代码和预警接收时间。Sensu还可以将采集到的metrics数据存储到InfluxDB、Graphite和Prometheus等外部时序数据集中。
3.2 安装Sensu PrometheusCollector
用户可以通过Sensu的资产索引库Bonsai发现、下载、共享资产。点击Bonsai信息页面的下载按钮,下载Sensu后端平台和架构的资产定义。收到check、filter、mutator或handler请求时,Sensu会根据资产定义下载验证资产。
下载资产定义后,可以通过Sensu的资源管理命令行工具sensuctl进行资产注册,然后创建监控工作流。
下方是Prometheus collector的资产定义及相应的Linux sensuctl命令:
下方为Prometheus Collector的check实例:
3.3 优势
同时运行Sensu和Prometheus具有下列优势:
- 既能监控K8s集群的健康状况又能动态监控周边基础设施的健康状况,并采集相关指标。
- 既能实现问题自动发现,又能通过自动化工作流简化监控流程。
- 同时运行Prometheus和Sensu能够获得更多上下文信息,实现更细粒度的数据抓取分析。
- Sensu采用标准通信密码,可通过单个agent安全采集传输数据。
- 便于管理配置监控设置。
- 能够监控整个基础设施。
四、结论
Sensu能够监控整个基础设施,且定制化水平高,上下文更丰富。Prometheus模型稳健,能够实现深度数据钻取;Sensu则采用行业标准技术和格式(如Nagios和StatsD),监控整个基础设施。Sensu能够与Prometheus相互补充,提供更加丰富的上下文信息。
随着我们对软件依赖程度的加深,软件的可用性和故障修复时间对企业的存活非常重要。因此,只有充分了解系统才能克服这些挑战,基础设施和应用监控正是关键的一环。要想充分利用K8s的能力,必须实施统一的监控解决方案,实现新老技术的有效衔接。
原文作者:STEFAN THORPE
原文链接:https://dzone.com/refcardz/monitoring-kubernetes
译文首发于UAVStack智能运维
【译】Kubernetes监控实践(2):可行监控方案之Prometheus和Sensu的更多相关文章
- Kubernetes监控实践
一.Kubernetes介绍 Kubernetes(K8s)是一个开源平台,能够有效简化应用管理.应用部署和应用扩展环节的手动操作流程,让用户更加灵活地部署管理云端应用. 作为可扩展的容错平台,K8s ...
- Kubernetes 监控方案之 Prometheus Operator(十九)
目录 一.Prometheus 介绍 1.1.Prometheus 架构 1.2.Prometheus Operator 架构 二.Helm 安装部署 2.1.Helm 客户端安装 2.2.Tille ...
- Kubernetes Ingress 日志分析与监控的最佳实践
摘要: Ingress主要提供HTTP层(7层)路由功能,是目前K8s中HTTP/HTTPS服务的主流暴露方式.为简化广大用户对于Ingress日志分析与监控的门槛,阿里云容器服务和日志服务将Ingr ...
- 从 IT 中断中学到的最佳监控实践
每个运维监控工具,一般要追踪数十万个内部性能指标.学会对哪些事件进行告警以及监控确实需要花费想当长的一段时间.因为,并非所有的指标等级都是一致.因此我们需要摸索出一套简单的方法,便于管理所有指标,而且 ...
- FinTech领域实践:乐维监控助力西南某上市城商行IT运维转型升级!
FinTech领域实践:乐维监控助力西南某上市城商行IT运维转型升级! 项目背景 随着信息化的逐步深入,企业业务运营活动对IT的依赖程度越来越高,传统的局部.粗放.碎片化的IT运维管理模式已经无法满足 ...
- Windows性能计数器监控实践
Windows性能计数器(Performance Counter)是Windows提供的一种系统功能,它能实时采集.分析系统内的应用程序.服务.驱动程序等的性能数据,以此来分析系统的瓶颈.监控组件的表 ...
- centos shell编程6一些工作中实践脚本 nagios监控脚本 自定义zabbix脚本 mysql备份脚本 zabbix错误日志 直接送给bc做计算 gzip innobackupex/Xtrabackup 第四十节课
centos shell编程6一些工作中实践脚本 nagios监控脚本 自定义zabbix脚本 mysql备份脚本 zabbix错误日志 直接送给bc做计算 gzip innobacku ...
- Zabbix监控和分布式部署实施方案
最近在研究Zabbix监控,由于机房分布在多个城市,因此采用zabbix proxy做为监控方案,在每 个节点部署zabbix proxy,由zabbix proxy收集agentd数据,然后将采集到 ...
- Windows应用程序进程级别统一监控实践
一般的系统级别指标监控,更多关注CPU.内存.磁盘.网络等运行情况,对应用程序运行时的进程指标关注不够,导致不能深入了解系统运行状态.本文根据笔者应用实践,探讨一下进程级别监控涉及到的监控内容以及监控 ...
随机推荐
- excache.xml作用
name:缓存名称. maxElementsInMemory:缓存最大个数. eternal:对象是否永久有效,一但设置了,timeout将不起作用. timeToIdleSeconds:设置对象在失 ...
- 史上最全面的SignalR系列教程-6、SignalR 实现聊天室
1.概述 通过前面几篇文章对SignalR的详细介绍.我们知道Asp.net SignalR是微软为实现实时通信的一个类库.一般情况下,SignalR会使用JavaScript的长轮询(long po ...
- 【解决】TLS/SSLError问题导致无法使用pip或conda安装软件包
Copy these files from the ./Library/bin to ./DLLs/ :libcrypto-1_1-x64.*libssl-1_1-x64.* 解决 欢迎关注↓↓↓ 头 ...
- Django基础知识点
HTTP协议: 请求方式: 有8种分别是GET POST DELTE PUT OPTIONS HEAD 状态码: 2xx 200 OK 3xx 重定向 4xx 请求的错误 5xx 服 ...
- 设计模式(C#)——08组合模式
推荐阅读: 我的CSDN 我的博客园 QQ群:704621321 游戏通常包含许多视图.主视图中显示角色.有一个子视图,显示玩家的积分.有一个子视图,显示游戏中剩下的时间. ...
- Java IO体系综述
Java IO体系综述 一.流的概念 在Java API中,可以从其中读入一个字节序列的对象称作输入流,而可以向其中写入一个字节序列的对象称作输出流.这些字节序列的来源地和目的地可以是文件,而且通常都 ...
- 命令行通过入参调用jar包
命令行通过入参调用jar包 最近因为项目需要,需要实现一个功能,即定时执行服务器上的一个脚本去对数据库的数据进行业务处理,要操作的数据库有很多种,mysql.db2.oracle.sqlserver等 ...
- 给手机端页面留一个调试后门吧(vue)
当我们在浏览器开发vue页面时,由于浏览器对于调试有天然的支持,我们开发起来很方便.但是现在已经进入了移动端时代,移动端页面的需求越来越大. 在开发移动端页面的时候我们通常是在浏览器完成开发完成,之后 ...
- 杭电多校第十场 hdu6434 Count 欧拉函数打表 快速打表模板
Problem I. Count Time Limit: 4000/2000 MS (Java/Others) Memory Limit: 524288/524288 K (Java/Other ...
- Atcoder E - RGB Sequence(dp)
题目链接:http://arc074.contest.atcoder.jp/tasks/arc074_c 题意:一共有3种颜色,红色,绿色,蓝色.给出m个要求l,r,x表示在区间[l,r]内要有x种不 ...