引言 TKE团队负责公有云,私有云场景下近万个集群,数百万核节点的运维管理工作.为了监控规模如此庞大的集群联邦,TKE团队在原生Prometheus的基础上进行了大量探索与改进,研发出一套可扩展,高可用且兼容原生配置的Prometheus集群系统,理论上可支持无限的series数目和存储容量,支持纳管TKE集群,EKS集群以及自建K8s集群的监控诉求. 本文从TKE的架构出发,逐步介绍了整个监控系统的演进过程,包括早期的方案和遇到的问题,社区方案的瓶颈,我们的改进原理等. TKE架构简介 为了让…
一.Prometheus Operator 介绍 Prometheus Operator 是 CoreOS 开发的基于 Prometheus 的 Kubernetes 监控方案,也可能是目前功能最全面的开源方案. Prometheus Operator架构图 二.安装prometheus operator 测试环境: [root@k8s-m manifests]# kubectl get node NAME STATUS ROLES AGE VERSION k8s-m Ready master…
概述 不久前,我们在文章<如何扩展单个Prometheus实现近万Kubernetes集群监控?>中详细介绍了TKE团队大规模Kubernetes联邦监控系统Kvass的演进过程,其中介绍了针对规模较大的集群,我们是如何通过修改Prometheus代码来实现横向扩缩容的.经过方案上的改进,Kvass目前已经支持以Sidecar的方式实现Prometheus集群化,而不是修改Prometheus代码.由于方案对社区有一定价值,团队决定将项目开源出来,分享给社区.项目地址 本文首先将给出Prome…
使用Prometheus监控Kubernetes集群 监控方面Grafana采用YUM安装通过服务形式运行,部署在Master上,而Prometheus则通过POD运行,Grafana通过使用Prometheus的service地址来获取数据源. Prometheus的配置清单在kubernetes二进制程序包中就有,下载地址, 解压后有一个cluster目录,该目录里面的addons里面有所需要的插件,比如dns.dashboard以及prometheus等. 我用的就是它自带的这个prome…
转载自:https://www.qikqiak.com/post/monitor-external-k8s-on-prometheus/ 在实际环境中很多企业是将 Prometheus 单独部署在集群外部的,甚至直接监控多个 Kubernetes 集群,虽然不推荐这样去做,因为 Prometheus 采集的数据量太大,或大量消耗资源,比较推荐的做法是用不同的 Prometheus 实例监控不同的集群,然后用联邦的方式进行汇总.但是使用 Prometheus 监控外部的 Kubernetes 集群…
目录 1.Prometheus & Grafana 介绍 2.环境.软件准备 3.Rancher 2.x 应用商店 4.一键式部署 Prometheus 5.验证 Prometheus + Grafana 1.Prometheus & Grafana 介绍 Prometheus 是一套开源的系统监控.报警.时间序列数据库的组合,Prometheus 基本原理是通过 Http 协议周期性抓取被监控组件的状态,而通过 Exporter Http 接口输出这些被监控的组件信息,而且已经有很多 E…
点击下载<不一样的 双11 技术:阿里巴巴经济体云原生实践> 本文节选自<不一样的 双11 技术:阿里巴巴经济体云原生实践>一书,点击上方图片即可下载! 作者 | 汤志敏,阿里云容器服务高级技术专家 在 2019 年 双11 中,容器服务 ACK 支撑了阿里巴巴内部核心系统容器化和阿里云的云产品本身,也将阿里巴巴多年的大规模容器技术以产品化的能力输出给众多围绕 双11 的生态公司.通过支撑来自全球各行各业的容器云,容器服务沉淀了支持单元化全球化架构和柔性架构的云原生应用托管中台能力…
背景 作为国内领先的生活服务平台,美团点评很多业务都具有非常显著.规律的”高峰“和”低谷“特征.尤其遇到节假日或促销活动,流量还会在短时间内出现爆发式的增长.这对集群中心的资源弹性和可用性有非常高的要求,同时也会使系统在支撑业务流量时的复杂度和成本支出呈现指数级增长.而我们需要做的,就是利用有限的资源最大化地提升集群的吞吐能力,以保障用户体验. 本文将介绍美团点评Kubernetes集群管理与使用实践,包括美团点评集群管理与调度系统介绍.Kubernetes管理与实践.Kubernetes优化与…
6分钟阅读 背景 压力测试是评估Web应用程序性能的有效方法.此外,越来越多的Web应用程序被分解为几个微服务,每个微服务的性能可能会有所不同,因为有些是计算密集型的,而有些是IO密集型的. 基于微服务架构的Web应用程序压力测试起着更重要的作用.本博客将使用Kubernetes集群中的JMeter 3.2(一种功能强大的压力测试工具)评估我们公司演示的性能. 从上一篇文章中,我们发现Manager服务需要大部分资源.因此,在此计划中,我们将深入研究Manager服务的性能测试. 测试计划 我们…
Airbnb的动态kubernetes集群扩缩容 本文介绍了Airbnb的集群扩缩容的演化历史,以及当前是如何通过Cluster Autoscaler 实现自定义扩展器的.最重要的经验就是Airbnb是如何一步步演化到当前架构的,其驱动因素又是什么. 译自:Dynamic Kubernetes Cluster Scaling at Airbnb 简介 Airbnb的基础设施的一个重要作用是保证云能够根据需要自动执行扩缩容.我们每天的流量波动都非常大,需要依靠动态扩缩容来保证服务的正常运行. 为了…