Prometheus 持久化安装

我们prometheus采用nfs挂载方式来存储数据,同时使用configMap管理配置文件。并且我们将所有的prometheus存储在kube-system

  1. #建议将所有的prometheus yaml文件存在一块
  2. mkdir /opt/prometheus -p && cd /opt/prometheus
  3. 生成配置文件

  4.  
  5. cat >> prometheus.configmap.yaml <<EOF

  6. apiVersion: v1

  7. kind: ConfigMap

  8. metadata:

  9. name: prometheus-config

  10. namespace: kube-system

  11. data:

  12. prometheus.yml: |

  13. global:

  14. scrape_interval: 15s

  15. scrape_timeout: 15s

  16. scrape_configs:

  17. - job_name: 'prometheus'

  18. static_configs:

  19. - targets: ['localhost:9090']

  20. EOF
  21. 配置文件解释(这里的configmap实际上就是prometheus的配置)

  22.  
  23. 上面包含了3个模块globalrule_filesscrape_configs
  24.  
  25. 其中global模块控制Prometheus Server的全局配置

  26. scrape_interval:表示prometheus抓取指标数据的频率,默认是15s,我们可以覆盖这个值

  27. evaluation_interval:用来控制评估规则的频率,prometheus使用规则产生新的时间序列数据或者产生警报
  28.  
  29. rule_files模块制定了规则所在的位置,prometheus可以根据这个配置加载规则,用于生产新的时间序列数据或者报警信息,当前我们没有配置任何规则,后期会添加
  30.  
  31. scrape_configs用于控制prometheus监控哪些资源。由于prometheus通过http的方式来暴露它本身的监控数据,prometheus也能够监控本身的健康情况。在默认的配置有一个单独的job,叫做prometheus,它采集prometheus服务本身的时间序列数据。这个job包含了一个单独的、静态配置的目标;监听localhost上的9090端口。

  32. prometheus默认会通过目标的/metrics路径采集metrics。所以,默认的job通过URLhttp://localhost:9090/metrics采集metrics。收集到时间序列包含prometheus服务本身的状态和性能。如果我们还有其他的资源需要监控,可以直接配置在该模块下即可

然后创建该资源对象:

  1. [root@k8s- prometheus]# kubectl apply -f prometheus.configmap.yaml
  2. configmap/prometheus-config created
  1. [root@k8s- prometheus]# kubectl get configmaps -n kube-system |grep prometheus
  2. prometheus-config 163m

配置文件创建完成,如果以后我们有新的资源需要被监控,我们只需要将ConfigMap对象更新即可,现在我们开始创建prometheus的Pod资源

  1. [root@k8s- prometheus]# cat > prometheus.deploy.yaml <<EOF
  2. apiVersion: apps/v1
  3. kind: Deployment
  4. metadata:
  5. name: prometheus
  6. namespace: kube-system
  7. labels:
  8. app: prometheus
  9. spec:
  10. selector:
  11. matchLabels:
  12. app: prometheus
  13. template:
  14. metadata:
  15. labels:
  16. app: prometheus
  17. spec:
  18. serviceAccountName: prometheus
  19. containers:
  20. - image: prom/prometheus:v2.4.3
  21. name: prometheus
  22. command:
  23. - "/bin/prometheus"
  24. args:
  25. - "--config.file=/etc/prometheus/prometheus.yml"
  26. - "--storage.tsdb.path=/prometheus"
  27. - "--storage.tsdb.retention=30d"
  28. - "--web.enable-admin-api" # 控制对admin HTTP API的访问,其中包括删除时间序列等功能
  29. - "--web.enable-lifecycle" # 支持热更新,直接执行localhost:/-/reload立即生效
  30. ports:
  31. - containerPort:
  32. protocol: TCP
  33. name: http
  34. volumeMounts:
  35. - mountPath: "/prometheus"
  36. subPath: prometheus
  37. name: data
  38. - mountPath: "/etc/prometheus"
  39. name: config-volume
  40. resources:
  41. requests:
  42. cpu: 100m
  43. memory: 512Mi
  44. limits:
  45. cpu: 100m
  46. memory: 512Mi
  47. securityContext:
  48. runAsUser:
  49. volumes:
  50. - name: data
  51. persistentVolumeClaim:
  52. claimName: prometheus
  53. - configMap:
  54. name: prometheus-config
  55. name: config-volume
  56.  
  57. ---

  58. apiVersion: v1

  59. kind: Service

  60. metadata:

  61. namespace: kube-system

  62. name: prometheus

  63. labels:

  64. app: prometheus

  65. spec:

  66. type: NodePort

  67. selector:

  68. app: prometheus

  69. ports:

  70. - name: http

  71. port:
  72.  
  73. EOF

我们在启动程序的时候,除了指定prometheus.yaml(configmap)以外,还通过storage.tsdb.path指定了TSDB数据的存储路径、通过storage.tsdb.rentention设置了保留多长时间的数据,还有下面的web.enable-admin-api参数可以用来开启对admin api的访问权限,参数web.enable-lifecyle用来开启支持热更新,有了这个参数之后,prometheus.yaml(configmap)文件只要更新了,通过执行localhost:9090/-/reload就会立即生效

我们添加了一行securityContext,,其中runAsUser设置为0,这是因为prometheus运行过程中使用的用户是nobody,如果不配置可能会出现权限问题

NFS搭建步骤

  1. for i in k8s- k8s- k8s-;do ssh root@$i "yum install nfs-utils rpcbind -y";done
  2. 接着我们在任意一台机器上搭建nfs,其他的服务器主要是挂载
  3.  
  4. 我这里使用192.168.0.
  5.  
  6. NFS服务器操作如下

  7. mkdir -p /home/kvm

  8. systemctl start rpcbind

  9. systemctl enable rpcbind

  10. systemctl enable nfs

  11. echo "/home/kvm *(rw,no_root_squash,sync)" >>/etc/exports
  12.  
  13. 其他k8s节点直接启动rpcbind并且挂载目录就可以

  14. systemctl start rpcbind

  15. systemctl enable rpcbind

  16. mkdir /data/k8s -p

  17. mount -t nfs 10.4.82.138:/home/kvm /data/k8s

prometheus.yaml文件对应的ConfigMap对象通过volume的形式挂载进Pod,这样ConfigMap更新后,对应的pod也会热更新,然后我们在执行上面的reload请求,prometheus配置就生效了。除此之外,对了将时间数据进行持久化,我们将数据目录和一个pvc对象进行了绑定,所以我们需要提前创建pvc对象

  1. [root@k8s- prometheus]# cat >prometheus-volume.yaml <<EOF
  2. apiVersion: v1
  3. kind: PersistentVolume
  4. metadata:
  5. name: prometheus
  6. spec:
  7. capacity:
  8. storage: 10Gi
  9. accessModes:
  10. - ReadWriteOnce
  11. persistentVolumeReclaimPolicy: Recycle
  12. nfs:
  13. server: 192.168.0.200
  14. path: /home/kvm/k8s-vloume
  15.  
  16. ---

  17. apiVersion: v1

  18. kind: PersistentVolumeClaim

  19. metadata:

  20. name: prometheus

  21. namespace: kube-system

  22. spec:

  23. accessModes:

  24. - ReadWriteOnce

  25. resources:

  26. requests:

  27. storage: 10Gi
  28.  
  29. EOF
  30. nfs

  31.  
  32. server nfs服务器ip

  33. path 挂载点,提前挂在好,确保可以写入

这里通过一个简单的NFS作为存储后端创建一个pv & pvc

  1. [root@k8s- prometheus]# kubectl create -f prometheus-volume.yaml
  2. persistentvolume/prometheus created
  3. persistentvolumeclaim/prometheus created

我们这里还需要创建rbac认证,因为prometheus需要访问k8s集群内部的资源

  1. cat >>prometheus-rbac.yaml <<EOF
  2. apiVersion: v1
  3. kind: ServiceAccount
  4. metadata:
  5. name: prometheus
  6. namespace: kube-system
  7. ---
  8. apiVersion: rbac.authorization.k8s.io/v1
  9. kind: ClusterRole
  10. metadata:
  11. name: prometheus
  12. rules:
  13. - apiGroups:
  14. - ""
  15. resources:
  16. - nodes
  17. - services
  18. - endpoints
  19. - pods
  20. - nodes/proxy
  21. verbs:
  22. - get
  23. - list
  24. - watch
  25. - apiGroups:
  26. - ""
  27. resources:
  28. - configmaps
  29. - nodes/metrics
  30. verbs:
  31. - get
  32. - nonResourceURLs:
  33. - /metrics
  34. verbs:
  35. - get
  36. ---
  37. apiVersion: rbac.authorization.k8s.io/v1beta1
  38. kind: ClusterRoleBinding
  39. metadata:
  40. name: prometheus
  41. roleRef:
  42. apiGroup: rbac.authorization.k8s.io
  43. kind: ClusterRole
  44. name: prometheus
  45. subjects:
  46. - kind: ServiceAccount
  47. name: prometheus
  48. namespace: kube-system
  49. EOF

由于我们要获取的资源,在每一个namespace下面都有可能存在,所以我们这里使用的是ClusterRole的资源对象,nonResourceURLs是用来对非资源型metrics进行操作的权限声明

  1. 创建rbac文件
  2. [root@k8s-01 prometheus]# kubectl create -f prometheus-rbac.yaml
  3. serviceaccount/prometheus created
  4. clusterrole.rbac.authorization.k8s.io/prometheus created
  5. clusterrolebinding.rbac.authorization.k8s.io/prometheus created

我们将ConfigMap volume rbac 创建完毕后,就可以创建prometheus.deploy.yaml了,运行prometheus服务

  1. [root@k8s-]# kubectl create -f prometheus.deploy.yaml
  2. deployment.extensions/prometheus created
  3.  
  4. [root@k8s- prometheus]# kubectl get pod -n kube-system |grep prometheus

  5. prometheus-847494df74-zbz9v / Running 148m
  6. 这里1/ 状态为Running即可

现在我们prometheus服务状态是已经正常了,但是我们在浏览器是无法访问prometheus的 webui服务。那么我们还需要创建一个service

  1. cat >>prometeheus-svc.yaml <<EOF
  2. apiVersion: v1
  3. kind: Service
  4. metadata:
  5. namespace: kube-system
  6. name: prometheus
  7. labels:
  8. app: prometheus
  9. spec:
  10. type: NodePort
  11. selector:
  12. app: prometheus
  13. ports:
  14. - name: http
  15. port:
  16.  
  17. EOF

  1. [root@k8s-01prometheus]# kubectl create -f prometeheus-svc.yaml
  2. service/prometheus created
  3.  
  4. [root@k8s- prometheus]# kubectl get svc -n kube-system |grep prometheus

  5. prometheus NodePort 10.1.183.250 <none> :/TCP 148m

这里定义的端口为3xxxx,我们直接在浏览器上任意节点输入ip+端口即可

我们可以查看一下当前监控规则

默认prometheus会监控自己

Status-->Targets

我们查看一下数据,是否收集到数据

Prometheus监控Kubernetes 集群节点及应用

对于Kubernetes的集群监控一般我们需要考虑一下几方面

  • Kubernetes节点的监控;比如节点的cpu、load、fdisk、memory等指标
  • 内部系统组件的状态;比如kube-scheduler、kube-controller-manager、kubedns/coredns等组件的运行状态
  • 编排级的metrics;比如Deployment的状态、资源请求、调度和API延迟等数据指标

监控方案

Kubernetes集群的监控方案主要有以下几种方案

  • Heapster:Herapster是一个集群范围的监控和数据聚合工具,以Pod的形式运行在集群中

Kubelet/cAdvisor之外,我们还可以向Heapster添加其他指标源数据,比如kube-state-metrics

Heapster已经被废弃,使用metrics-server代替

  • cAvisor:cAdvisor是Google开源的容器资源监控和性能分析工具,它是专门为容器而生,本身也支持Docker容器,Kubernetes中,我们不需要单独去安装,cAdvisor作为kubelet内置的一部分程序可以直接使用
  • Kube-state-metrics:通过监听API Server生成有关资源对象的状态指标,比如Deployment、Node、Pod,需要注意的是kube-state-metrics只是简单的提供一个metrics数据,并不会存储这些指标数据,所以我们可以使用Prometheus来抓取这些数据然后存储
  • metrics-server:metrics-server也是一个集群范围内的资源数据局和工具,是Heapster的代替品,同样的,metrics-server也只是显示数据,并不提供数据存储服务。

不过kube-state-metricsmetrics-server之前还有很大不同的,二者主要区别如下

  1. 1.kube-state-metrics主要关注的是业务相关的一些元数据,比如DeploymentPod、副本状态等
  2. 2.metrics-service主要关注的是资源度量API的实现,比如CPU、文件描述符、内存、请求延时等指标

资源度量API


监控集群节点

首先需要我们监控集群的节点,要监控节点其实我们已经有很多非常成熟的方案了,比如Nagios、Zabbix,甚至可以我们自己收集数据,这里我们通过prometheus来采集节点的监控指标,可以通过node_exporter获取,node_exporter就是抓取用于采集服务器节点的各种运行指标,目前node_exporter几乎支持所有常见的监控点,比如cpu、distats、loadavg、meminfo、netstat等,详细的监控列表可以参考github repo

这里使用DeamonSet控制器来部署该服务,这样每一个节点都会运行一个Pod,如果我们从集群中删除或添加节点后,也会进行自动扩展

  1. [root@k8s- prometheus]# cat >>prometheus-node-exporter.yaml<<EOF
  2. apiVersion: apps/v1
  3. kind: DaemonSet
  4. metadata:
  5. name: node-exporter
  6. namespace: kube-system
  7. labels:
  8. name: node-exporter
  9. k8s-app: node-exporter
  10. spec:
  11. selector:
  12. matchLabels:
  13. name: node-exporter
  14. template:
  15. metadata:
  16. labels:
  17. name: node-exporter
  18. app: node-exporter
  19. spec:
  20. hostPID: true
  21. hostIPC: true
  22. hostNetwork: true
  23. containers:
  24. - name: node-exporter
  25. image: prom/node-exporter:v0.16.0
  26. ports:
  27. - containerPort:
  28. resources:
  29. requests:
  30. cpu: 0.15
  31. securityContext:
  32. privileged: true
  33. args:
  34. - --path.procfs
  35. - /host/proc
  36. - --path.sysfs
  37. - /host/sys
  38. - --collector.filesystem.ignored-mount-points
  39. - '"^/(sys|proc|dev|host|etc)($|/)"'
  40. volumeMounts:
  41. - name: dev
  42. mountPath: /host/dev
  43. - name: proc
  44. mountPath: /host/proc
  45. - name: sys
  46. mountPath: /host/sys
  47. - name: rootfs
  48. mountPath: /rootfs
  49. tolerations:
  50. - key: "node-role.kubernetes.io/master"
  51. operator: "Exists"
  52. effect: "NoSchedule"
  53. volumes:
  54. - name: proc
  55. hostPath:
  56. path: /proc
  57. - name: dev
  58. hostPath:
  59. path: /dev
  60. - name: sys
  61. hostPath:
  62. path: /sys
  63. - name: rootfs
  64. hostPath:
  65. path: /
  66.  
  67. EOF

创建node-exporter并检查pod

  1. [root@k8s-01prometheus]# kubectl create -f prometheus-node-exporter.yaml
  2. daemonset.extensions/node-exporter created
  3.  
  4. [root@k8s- prometheus]# kubectl get pod -n kube-system -o wide|grep node

  5. node-exporter-bsdkl / Running 36m 192.168.122.217 k8s- <none> <none>

  6. node-exporter-f8wrt / Running 36m 192.168.122.2 k8s- <none> <none>

  7. node-exporter-gjhvz / Running 36m 192.168.122.165 k8s- <none> <none>
  8. 这里我们可以看到,我们有3个节点,在所有的节点上都启动了一个对应Pod进行获取数据

node-exporter.yaml文件说明

由于我们要获取的数据是主机的监控指标数据,而我们的node-exporter是运行在容器中的,所以我们在Pod中需要配置一些Pod的安全策略

  1. hostPID:true
  2. hostIPC:true
  3. hostNetwork:true
  4. 这三个配置主要用于主机的PID namespaceIPC namespace以及主机网络,这里需要注意的是namespace是用于容器隔离的关键技术,这里的namespace和集群中的namespace是两个完全不同的概念

另外我们还需要将主机/dev/proc/sys这些目录挂在到容器中,这些因为我们采集的很多节点数据都是通过这些文件来获取系统信息

比如我们在执行top命令可以查看当前cpu使用情况,数据就来源于/proc/stat,使用free命令可以查看当前内存使用情况,其数据来源是/proc/meminfo文件

另外如果是使用kubeadm搭建的,同时需要监控master节点的,则需要添加下方的相应容忍

  1. - key: "node-role.kubernetes.io/master"
  2. operator: "Exists"
  3. effect: "NoSchedule

node-exporter容器相关启动参数

  1. args:
  2. - --path.procfs #配置挂载宿主机(node节点)的路径
  3. - /host/proc
  4. - --path.sysfs #配置挂载宿主机(node节点)的路径
  5. - /host/sys
  6. - --collector.filesystem.ignored-mount-points
  7. - '"^/(sys|proc|dev|host|etc)($|/)"'

在我们的yaml文件中加入了hostNetwork:true会直接将我们的宿主机的9100端口映射出来,从而不需要创建service 在我们的宿主机上就会有一个9100的端口

容器的9100--->映射到宿主机9100

  1. hostNetwork: true
  2. containers:
  3. - name: node-exporter
  4. image: prom/node-exporter:v0.16.0
  5. ports:
  6. - containerPort: 9100

上面我们检查了Pod的运行状态都是正常的,接下来我们要查看一下Pod日志,以及node-exporter中的metrics

使用命令kubectl logs -n 命名空间 node-exporter中Pod名称检查Pod日志是否有额外报错

  1. [root@k8s- prometheus]# kubectl logs -n kube-system node-exporter-
  2. node-exporter-bsdkl node-exporter-f8wrt node-exporter-gjhvz
  3. [root@k8s- prometheus]# kubectl logs -n kube-system node-exporter-bsdkl
  4. time="2019-12-05T05:50:42Z" level=info msg="Starting node_exporter (version=0.16.0, branch=HEAD, revision=d42bd70f4363dced6b77d8fc311ea57b63387e4f)" source="node_exporter.go:82"
  5. time="2019-12-05T05:50:42Z" level=info msg="Build context (go=go1.9.6, user=root@a67a9bc13a69, date=20180515-15:52:42)" source="node_exporter.go:83"
  6. time="2019-12-05T05:50:42Z" level=info msg="Enabled collectors:" source="node_exporter.go:90"
  7. time="2019-12-05T05:50:42Z" level=info msg=" - arp" source="node_exporter.go:97"
  8. time="2019-12-05T05:50:42Z" level=info msg=" - bcache" source="node_exporter.go:97"
  9. time="2019-12-05T05:50:42Z" level=info msg=" - bonding" source="node_exporter.go:97"
  10. time="2019-12-05T05:50:42Z" level=info msg=" - conntrack" source="node_exporter.go:97"
  11. time="2019-12-05T05:50:42Z" level=info msg=" - cpu" source="node_exporter.go:97"
  12. time="2019-12-05T05:50:42Z" level=info msg=" - diskstats" source="node_exporter.go:97"
  13. time="2019-12-05T05:50:42Z" level=info msg=" - edac" source="node_exporter.go:97"
  14. time="2019-12-05T05:50:42Z" level=info msg=" - entropy" source="node_exporter.go:97"
  15. time="2019-12-05T05:50:42Z" level=info msg=" - filefd" source="node_exporter.go:97"
  16. time="2019-12-05T05:50:42Z" level=info msg=" - filesystem" source="node_exporter.go:97"
  17. time="2019-12-05T05:50:42Z" level=info msg=" - hwmon" source="node_exporter.go:97"
  18. time="2019-12-05T05:50:42Z" level=info msg=" - infiniband" source="node_exporter.go:97"
  19. time="2019-12-05T05:50:42Z" level=info msg=" - ipvs" source="node_exporter.go:97"
  20. time="2019-12-05T05:50:42Z" level=info msg=" - loadavg" source="node_exporter.go:97"
  21. time="2019-12-05T05:50:42Z" level=info msg=" - mdadm" source="node_exporter.go:97"
  22. time="2019-12-05T05:50:42Z" level=info msg=" - meminfo" source="node_exporter.go:97"
  23. time="2019-12-05T05:50:42Z" level=info msg=" - netdev" source="node_exporter.go:97"
  24. time="2019-12-05T05:50:42Z" level=info msg=" - netstat" source="node_exporter.go:97"
  25. time="2019-12-05T05:50:42Z" level=info msg=" - nfs" source="node_exporter.go:97"
  26. time="2019-12-05T05:50:42Z" level=info msg=" - nfsd" source="node_exporter.go:97"
  27. time="2019-12-05T05:50:42Z" level=info msg=" - sockstat" source="node_exporter.go:97"
  28. time="2019-12-05T05:50:42Z" level=info msg=" - stat" source="node_exporter.go:97"
  29. time="2019-12-05T05:50:42Z" level=info msg=" - textfile" source="node_exporter.go:97"
  30. time="2019-12-05T05:50:42Z" level=info msg=" - time" source="node_exporter.go:97"
  31. time="2019-12-05T05:50:42Z" level=info msg=" - timex" source="node_exporter.go:97"
  32. time="2019-12-05T05:50:42Z" level=info msg=" - uname" source="node_exporter.go:97"
  33. time="2019-12-05T05:50:42Z" level=info msg=" - vmstat" source="node_exporter.go:97"
  34. time="2019-12-05T05:50:42Z" level=info msg=" - wifi" source="node_exporter.go:97"
  35. time="2019-12-05T05:50:42Z" level=info msg=" - xfs" source="node_exporter.go:97"
  36. time="2019-12-05T05:50:42Z" level=info msg=" - zfs" source="node_exporter.go:97"
  37. time="2019-12-05T05:50:42Z" level=info msg="Listening on :9100" source="node_exporter.go:111"
  1. #接下来,我们在任意集群节点curl 9100/metrics
  1. [root@k8s- prometheus]# curl 127.0.0.1:/metrics|head
  2. % Total % Received % Xferd Average Speed Time Time Time Current
  3. Dload Upload Total Spent Left Speed
  4. --:--:-- --:--:-- --:--:-- # HELP go_gc_duration_seconds A summary of the GC invocation durations.
  5. # TYPE go_gc_duration_seconds summary
  6. go_gc_duration_seconds{quantile=""} 0.000239179
  7. go_gc_duration_seconds{quantile="0.25"} 0.000322674
  8. go_gc_duration_seconds{quantile="0.5"} 0.000361148
  9. go_gc_duration_seconds{quantile="0.75"} 0.000416324
  10. go_gc_duration_seconds{quantile=""} 0.000513074
  11. go_gc_duration_seconds_sum 0.006654219
  12. go_gc_duration_seconds_count
  13. # HELP go_goroutines Number of goroutines that currently exist.
  14. 2235k --:--:-- --:--:-- --:--:-- 2339k
  15. curl: () Failed writing body ( != )
  1. 只要metrics可以获取到数据说明node-exporter没有问题

服务发现

我们这里三个节点都运行了node-exporter程序,如果我们通过一个Server来将数据收集在一起,用静态的方式配置到prometheus就会显示一条数据,我们得自己在指标中过滤每个节点的数据,配置比较麻烦。 这里就采用服务发现

在Kubernetes下,Prometheus通过Kubernetes API基础,目前主要支持5种服务发现,分别是nodeServerPodEndpointsIngress

需要我们在Prometheus配置文件中,添加如下三行

  1. - job_name: 'kubernetes-node'
  2. kubernetes_sd_configs:
  3. - role: node
  4. 通过制定Kubernetes_sd_config的模式为nodeprometheus就会自动从Kubernetes中发现所有的node节点并作为当前job监控的目标实例,发现的节点/metrics接口是默认的kubeletHTTP接口

接下来我们更新配置文件

  1. [root@k8s- prometheus]# kubectl apply -f prometheus.configmap.yaml
  2. configmap/prometheus-config configured
  3. [root@k8s- prometheus]#
  4. [root@k8s- prometheus]#
  5. [root@k8s- prometheus]# kubectl get svc -n kube-system |grep prometheus
  6. prometheus NodePort 10.1.183.250 <none> :/TCP 169m
  7. [root@k8s- prometheus]#
  8. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  9. #热更新刷新配置(需要等待一小会)

接着访问我们的地址

http://192.168.122.217:30129/targets

这个端口要和service对上

现在我们可以看到已经获取到我们的Node节点的IP,但是由于metrics监听的端口是10250而并不是我们设置的9100,所以提示我们节点属于Down的状态

这里我们就需要使用Prometheus提供的relabel_configs中的replace能力了,relabel可以在Prometheus采集数据之前,通过Target实例的Metadata信息,动态重新写入Label的值。除此之外,我们还能根据Target实例的Metadata信息选择是否采集或者忽略该Target实例。这里使用__address__标签替换10250端口为9100

这里使用正则进行替换端口

  1. - job_name: 'kubernetes-node'
  2. kubernetes_sd_configs:
  3. - role: node
  4. relabel_configs:
  5. - source_labels: [__address__]
  6. regex: '(.*):10250'
  7. replacement: '${1}:9100'
  8. target_label: __address__
  9. action: replace

接下来我们更新一下配置

curl的时候可以多更新几次,顺便等待一会

  1. [root@k8s- prometheus]# kubectl apply -f prometheus.configmap.yaml
  2. configmap/prometheus-config configured
  3. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  4. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  5. [root@k8s- prometheus]#

现在在状态就正常了

目前状态已经正常,但是还有一个问题就是我们的采集数据只显示了IP地址,对于我们监控分组分类不是很方便,这里可以通过labelmap这个属性来将Kubernetes的Label标签添加为Prometheus的指标标签

  1. - job_name: 'kubernetes-node'
  2. kubernetes_sd_configs:
  3. - role: node
  4. relabel_configs:
  5. - source_labels: [__address__]
  6. regex: '(.*):10250'
  7. replacement: '${1}:9100'
  8. target_label: __address__
  9. action: replace
  10. - action: labelmap
  11. regex: __meta_kubernetes_node_label_(.+)

添加了一个action为labelmap,正则表达式是__meta_kubernetes_node(.+)的配置,这里的意思就是表达式中匹配的数据也添加到指标数据的Label标签中去。

  1. [root@k8s- prometheus]# kubectl apply -f prometheus.configmap.yaml
  2. configmap/prometheus-config configured
  3. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  4. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload

实际上就是获取我们的标签

  1. [root@k8s- ~]# kubectl get nodes --show-labels
  2. NAME STATUS ROLES AGE VERSION LABELS
  3. k8s- Ready master 30d v1.16.0 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-,kubernetes.io/os=linux,node-role.kubernetes.io/master=
  4. k8s- Ready <none> 30d v1.16.0 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-,kubernetes.io/os=linux
  5. k8s- Ready <none> 30d v1.16.0 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=k8s-,kubernetes.io/os=linux
  6. [root@k8s- ~]#

对于Kubernetes_sd_configs下面可用的元标签如下

  • __meta_kubernetes_node_name: 节点对象的名称
  • _meta_kubernetes_node_label: 节点对象中的每个标签
  • _meta_kubernetes_node_annotation: 来自节点对象的每个注释

_meta_kubernetes_node_address: 每个节点地址类型的第一个地址(如果存在) 关于kubernetes_sd_configs更多信息可以查看官方文档: kubernetes_sd_config

  1. #prometheus configmap 监控完整配置如下,可以直接拷贝
  2. root@k8s- prometheus]# cat prometheus.configmap.yaml
  3. apiVersion: v1
  4. kind: ConfigMap
  5. metadata:
  6. name: prometheus-config
  7. namespace: kube-system
  8. data:
  9. prometheus.yml: |
  10. global:
  11. scrape_interval: 15s
  12. scrape_timeout: 15s
  13. scrape_configs:
  14. - job_name: 'prometheus'
  15. static_configs:
  16. - targets: ['localhost:9090']
  17. </span>- job_name: <span style="color: #800000;">'</span><span style="color: #800000;">kubernetes-node</span><span style="color: #800000;">'</span><span style="color: #000000;">
  18.   kubernetes_sd_configs:
  19.   </span>-<span style="color: #000000;"> role: node
  20.   relabel_configs:
  21.   </span>-<span style="color: #000000;"> source_labels: [__address__]
  22.     regex: </span><span style="color: #800000;">'</span><span style="color: #800000;">(.*):10250</span><span style="color: #800000;">'</span><span style="color: #000000;">
  23.     replacement: </span><span style="color: #800000;">'</span><span style="color: #800000;">${1}:9100</span><span style="color: #800000;">'</span><span style="color: #000000;">
  24.     target_label: __address__
  25.     action: replace
  26.   </span>-<span style="color: #000000;"> action: labelmap
  27.     regex: __meta_kubernetes_node_label_(.</span>+<span style="color: #000000;">)
  28. </span>- job_name: <span style="color: #800000;">'</span><span style="color: #800000;">kubernetes-cadvisor</span><span style="color: #800000;">'</span><span style="color: #000000;">
  29.   kubernetes_sd_configs:
  30.   </span>-<span style="color: #000000;"> role: node
  31.   scheme: https
  32.   tls_config:
  33.     ca_file: </span>/var/run/secrets/kubernetes.io/serviceaccount/<span style="color: #000000;">ca.crt
  34.   bearer_token_file: </span>/var/run/secrets/kubernetes.io/serviceaccount/<span style="color: #000000;">token
  35.   relabel_configs:
  36.   </span>-<span style="color: #000000;"> action: labelmap
  37.     regex: __meta_kubernetes_node_label_(.</span>+<span style="color: #000000;">)
  38.   </span>-<span style="color: #000000;"> target_label: __address__
  39.     replacement: kubernetes.default.svc:</span><span style="color: #800080;">443</span>
  40.   -<span style="color: #000000;"> source_labels: [__meta_kubernetes_node_name]
  41.     regex: (.</span>+<span style="color: #000000;">)
  42.     target_label: __metrics_path__
  43.     replacement: </span>/api/v1/nodes/${<span style="color: #800080;">1</span>}/proxy/metrics/cadvisor  </pre>
  44.  

我们还可以去Graph里面看一下数据

我们这里也可以自定义规则

容器监控

cAdvisor是一个容器资源监控工具,包括容器的内存,CPU,网络IO,资源IO等资源,同时提供了一个Web页面用于查看容器的实时运行状态。

cAvisor已经内置在了kubelet组件之中,所以我们不需要单独去安装,cAdvisor的数据路径为/api/v1/nodes//proxy/metrics

action 使用labelkeep或者labeldrop则可以对Target标签进行过滤,仅保留符合过滤条件的标签

  1. - job_name: 'kubernetes-cadvisor'
  2. kubernetes_sd_configs:
  3. - role: node
  4. scheme: https
  5. tls_config:
  6. ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
  7. bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
  8. relabel_configs:
  9. - action: labelmap
  10. regex: __meta_kubernetes_node_label_(.+)
  11. - target_label: __address__
  12. replacement: kubernetes.default.svc:
  13. - source_labels: [__meta_kubernetes_node_name]
  14. regex: (.+)
  15. target_label: __metrics_path__
  16. replacement: /api/v1/nodes/${}/proxy/metrics/cadvisor

ls_config配置的证书地址是每个Pod连接apiserver所使用的地址,基本上写死了。并且我们在配置文件添加了一个labelmap标签。在最下面使用了一个正则替换了cAdvisor的一个metrics地址

证书是我们Pod启动的时候kubelet给pod注入的一个证书,所有的pod启动的时候都会有一个ca证书注入进来

如要想要访问apiserver的信息,还需要配置一个token_file

修改完成之后,我们需要configmap并且使用curl进行热更新(过程比较慢,需要等待会)

  1. [root@k8s- prometheus]# kubectl apply -f prometheus.configmap.yaml
  2. configmap/prometheus-config configured
  3. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  4. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload

现在我们可以到Graph路径下面查询容器的相关数据

这里演示查询集群中所有Pod的CPU使用情况,查询指标container_cpu_usage_seconds_total并且查询1分钟之内的数据

这里演示一下使用函数rate和不使用函数的一个过滤功能

  1. container_cpu_usage_seconds_total{image!=" ",pod_name!=" "}
  2. rate(container_cpu_usage_seconds_total{image!=" ",pod_name!=" "}[1m])

执行下方命令,过滤1分钟内的数据

rate(container_cpu_usage_seconds_total{image!=" ",pod_name!=" "}[1m])

还可以使用sum函数,pod在1分钟内的使用率,同时将pod名称打印出来

  1. sum by (pod)(rate(container_cpu_usage_seconds_total{image!=" ", pod_name!=" "}[1m] ))

Api-Service 监控

apiserver作为Kubernetes最核心的组件,它的监控也是非常有必要的,对于apiserver的监控,我们可以直接通过kubernetes的service来获取

  1. [root@k8s- prometheus]# kubectl get svc --all-namespaces
  2. NAMESPACE NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
  3. default kubernetes ClusterIP 10.1.0.1 <none> /TCP 31d
  4. ingress-nginx ingress-nginx ClusterIP 10.1.216.99 <none> /TCP,/TCP 24h
  5. kube-system kube-dns ClusterIP 10.1.0.10 <none> /UDP,/TCP,/TCP 30d
  6. kube-system kubelet ClusterIP None <none> /TCP 25h
  7. kube-system prometheus NodePort 10.1.183.250 <none> :/TCP 4h38m
  8. kubernetes-dashboard dashboard-metrics-scraper ClusterIP 10.1.100.76 <none> /TCP 30d
  9. kubernetes-dashboard kubernetes-dashboard NodePort 10.1.158.92 <none> :/TCP 30d
  10.  

上面的service是我们集群的apiserver内部的service的地址,要自动发现service类型的服务,需要使用roleEndpointskubernetes_sd_configs (自动发现),我们只需要在configmap里面在添加Endpoints类型的服务发现

  1. - job_name: 'kubernetes-apiserver'
  2. kubernetes_sd_configs:
  3. - role: endpoints

刷新配置文件

  1. [root@k8s- prometheus]# kubectl get svc -n kube-system
  2. NAME TYPE CLUSTER-IP EXTERNAL-IP PORT(S) AGE
  3. kube-dns ClusterIP 10.1.0.10 <none> /UDP,/TCP,/TCP 30d
  4. kubelet ClusterIP None <none> /TCP 25h
  5. prometheus NodePort 10.1.183.250 <none> :/TCP 4h43m
  6. [root@k8s- prometheus]# kubectl apply -f prometheus.configmap.yaml
  7. configmap/prometheus-config configured
  8. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  9. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  10. [root@k8s- prometheus]#

更新完成后,我们可以看到kubernetes-apiserver下面出现了很多实例,这是因为我们这里使用的Endpoints类型的服务发现,所以prometheus把所有的Endpoints服务都抓取过来了,同样的我们要监控的kubernetes也在列表中。

这里我们使用keep动作,将符合配置的保留下来,例如我们过滤default命名空间下服务名称为kubernetes的元数据,这里可以根据__meta_kubernetes_namespace__mate_kubertnetes_service_name2个元数据进行relabel

  1. - job_name: kubernetes-apiservers
  2. kubernetes_sd_configs:
  3. - role: endpoints
  4. relabel_configs:
  5. - action: keep
  6. regex: default;kubernetes;https
  7. source_labels:
  8. - __meta_kubernetes_namespace
  9. - __meta_kubernetes_service_name
  10. - __meta_kubernetes_endpoint_port_name
  11. scheme: https
  12. tls_config:
  13. ca_file: /var/run/secrets/kubernetes.io/serviceaccount/ca.crt
  14. insecure_skip_verify: true
  15. bearer_token_file: /var/run/secrets/kubernetes.io/serviceaccount/token
  1.  
  1. #参数解释
  2. action: keep #保留哪些标签
  3. regex: default;kubernetes;https #匹配namespace下的default命名空间下的kubernetes service 最后https协议
  4. 可以通过`kubectl describe svc kubernetes`查看到

刷新配置

  1. #这个过程比较慢,可能要等几分钟,可以多reload几次
  1. [root@k8s- prometheus]# kubectl apply -f prometheus.configmap.yaml
  2. configmap/prometheus-config configured
  3. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  4. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  5. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  6. [root@k8s- prometheus]#

接下来我们还是前往Greph上查看采集到的数据

  1. sum(rate(apiserver_request_count[1m]))
  2. 这里使用的promql里面的ratesun函数,意思是apiserver1分钟内请求的数

如果我们要监控其他系统组件,比如kube-controller-manager、kube-scheduler的话就需要单独手动创建service,因为apiserver服务默认在default,而其他组件在kube-steam这个namespace下。其中kube-sheduler的指标数据端口为10251,kube-controller-manager对应端口为10252

 

Service 监控

apiserver实际上是一种特殊的Service,现在配置一个专门发现普通类型的Service

这里我们对service进行过滤,只有在service配置了prometheus.io/scrape: "true"过滤出来

  1. - job_name: 'kubernetes-service-endpoints'
  2. kubernetes_sd_configs:
  3. - role: endpoints
  4. relabel_configs:
  5. - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scrape]
  6. action: keep
  7. regex: true
  8. - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_scheme]
  9. action: replace
  10. target_label: __scheme__
  11. regex: (https?)
  12. - source_labels: [__meta_kubernetes_service_annotation_prometheus_io_path]
  13. action: replace
  14. target_label: __metrics_path__
  15. regex: (.+)
  16. - source_labels: [__address__, __meta_kubernetes_service_annotation_prometheus_io_port]
  17. action: replace
  18. target_label: __address__
  19. regex: ([^:]+)(?::\d+)?;(\d+)
  20. replacement: $:$
  21. - action: labelmap
  22. regex: __meta_kubernetes_service_label_(.+)
  23. - source_labels: [__meta_kubernetes_namespace]
  24. action: replace
  25. target_label: kubernetes_namespace
  26. - source_labels: [__meta_kubernetes_service_name]
  27. action: replace
  28. target_label: kubernetes_name

继续重复步骤,刷新配置

  1. [root@k8s- prometheus]#
  2. [root@k8s- prometheus]# kubectl apply -f prometheus.configmap.yaml
  3. configmap/prometheus-config configured
  4. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  5. [root@k8s- prometheus]# curl -X POST http://10.1.183.250:9090/-/reload
  6. [root@k8s- prometheus]#

Serivce自动发现参数说明 (并不是所有创建的service都可以被prometheus发现)

  1. #.参数解释
  2. relabel_configs:
  3. -source_labels:[__meta_kubernetes_service_annotation_prometheus_io_scrape]
  4. action: keep
  5. regex: true 保留标签
  6. source_labels: [__meta_kubernetes_service_annotation_prometheus_io_cheme]
  7.  
  8. 这行配置代表我们只去筛选有__meta_kubernetes_service_annotation_prometheus_io_scrapeservice,只有添加了这个声明才可以自动发现其他service
  9. .参数解释

  10.  
  11. - source_labels: [address, __meta_kubernetes_service_annotation_prometheus_io_port]

  12. action: replace

  13. target_label: address

  14. regex: ([^:]+)(?::\d+)?
  15. Kubernetes1.16下部署Prometheus+node-exporter+Grafana+AlertManager 监控系统的更多相关文章

      1. Prometheus + Node Exporter + Grafana 监控主机运行信息
      1.   上一篇文章中讲了如何利用PrometheusGrafana监控SpringBoot应用的JVM信息,这次就来看看如何监控 服务器运行状态,先列出用到的工具: Prometheus node_ex ...

      1. 【开源监控】Prometheus+Node Exporter+Grafana监控linux服务器
      1. Prometheus Prometheus介绍 Prometheus新一代开源监控解决方案.github地址 Prometheus主要功能 多维 数据模型(时序由 metric 名字和 k/v l ...

      1. Kubernetes下部署Prometheus
      1. 使用ConfigMaps管理应用配置 当使用Deployment管理和部署应用程序时,用户可以方便了对应用进行扩容或者缩容,从而产生多个Pod实例.为了 能够统一管理这些Pod的配置信息,在Kuber ...

      1. Prometheus+Grafana企业监控系统
      1. Prometheus+Grafana企业监控系统 作者 刘畅 实验配置: 主机名称 Ip地址 controlnode 172.16.1.70/24 slavenode1 172.16.1.71/24 ...

      1. kubernetes1.11.1 部署prometheus
      1. 部署前提:已经安装好了kubernetes的集群,版本是1.11.1,是用kubeadm部署的. 2台虚拟机:master:172.17.1.36      node1:172.17.1.40 pro ...

      1. Prometheus+Grafana搭建监控系统
      1. 之前在业务中遇到服务器负载过高问题,由于没有监控,一直没发现,直到业务方反馈网站打开速度慢,才发现问题.这样显得开发很被动.所以是时候搭建一套监控系统了. 由于是业余时间自己捯饬,所以神马业务层面的监 ...

      1. docker-compose 快速部署Prometheus之服务端并监控ceph cluster 使用钉钉webhook 报警
      1. 现在环境是这样: ceph 4台: 192.168.100.21  ceph-node1 192.168.100.22  ceph-node2 192.168.100.23  ceph-node3 1 ...

      1. kubernetes1.15极速部署prometheusgrafana
      1. 关于prometheusgrafana prometheus负责监控数据采集,grafana负责展示,下图来自官网: 环境信息 硬件:三台CentOS 7.7服务器 kubernetes:1.15 ...

      1. CentOS 7.3 下部署基于 Node.js的微信小程序商城
      1. 本文档为微信小程序商城NideShop项目的安装部署教程,欢迎star NideShop商城api服务:https://github.com/tumobi/nideshop NideShop微信小程序 ...

    1.  
    2. 随机推荐

        1. 菜鸟系列Fabric源码学习—创建通道
        1. 通道创建源码解析 1. 与通道创建相关配置及操作命令 主要是configtx.yaml.通过应用通道的profile生成创建通道的配置文件. TwoOrgsChannel: Consortium: S ...

        1. sql数据库的基础语句
        1. 1, 创建数据库 create database database-name 2, 删除数据库 drop database dbname 3, 备份sql server 创建 备份数据的device ...

        1. mysql中一行中的几个字段 转换成一列并从其他数据库中查对应的邮件信息
        1. --将项目中的总监,经理,等的邮箱合并为一行 SELECT GROUP_CONCAT(t.USER_EMAIL SEPARATOR ' ') mail_address FROM portal.t_ac ...

        1. Kubernetes---Pod重启策略
        1. PodSpec中有一个restartPolicy 字段,可能的值为Always.OnFailureNever.默认为Always.restartPolicy 适用于Pod 中的所有容器.restar ...

        1. MySQL 聚合函数(四)检测功能依赖
        1. 源自MySQL 5.7 官方手册:12.20.4 Detection of Functional Dependence 本节提供了MySQL检测功能依赖的方式的几个示例.这些示例使用此表示法: {X} ...

        1. oracle练手(一)
        1. 练手001 1.列出至少有一个员工的所有部门 select dname from dept where deptno in (select deptno from emp); select dname ...

        1. 怎样获取响应头: Response Header
        1. 1. 使用 xhr.getResponseHeader()可以获取指定响应头字段值. function getHeaderTime() { console.log(this.getResponseHe ...

        1. Myatis中的OGNLbind标签的结合用法
        1. 1.MyBatis常用的OGNL e1 or e2 e1 and e2 e1 == e2,e1 eq e2 e1 != e2,e1 neq e2 e1 lt e2:小于 e1 lte e2:小于等于, ...

        1. sql server 数据库中明明有值但是查询怎么都查不到值
        1. 产生原因是因为编码问题 数据库是英文版  但是数据库中数据又是中文的 所以查询中文时需要加上N select * from customer where Username=N'张三'

        1. Angular 变更检测
        1. angular 的钩子函数有 content view , Docheck 子控件中有属性变化的时候,父组件的 Docheck  content   view  3个会依次执行,即使这个属性不在 ...