工具介绍

注意：该部分介绍摘抄自：https://www.aiwanyun.cn/archives/174

Prometheus、Grafana、Node Exporter 和Alertmanager是一组用于监控和可视化系统性能的开源工具。它们通常一起使用，形成一个强大的完整的监控和告警系统。一般来说，这四个工具一起协作，形成了一个完整的监控和告警系统。Node Exporter用于收集主机级别的指标(本文暂未使用)，Prometheus存储和查询这些指标，Grafana提供可视化界面，而Alertmanager则负责管理和发送告警。整个系统的目标是帮助管理员和开发人员实时了解系统的状态、性能和健康状况，并在必要时采取措施。

Prometheus

Prometheus 是一种开源的系统监控和警报工具。它最初由 SoundCloud 开发，并成为 Cloud Native Computing Foundation（CNCF）的一部分。Prometheus 支持多维度的数据模型和强大的查询语言，使得用户可以轻松地收集和查询各种类型的监控数据。

Grafana

Grafana 是一个开源的数据可视化和监控平台。它提供了丰富的图表和仪表盘，可以将各种数据源的信息可视化展示。Grafana 支持多个数据源，包括 Prometheus、Graphite、InfluxDB 等，因此可以与各种监控系统集成，提供灵活且强大的可视化功能。

Alertmanager

Alertmanager 是 Prometheus 生态系统中的一个组件，负责处理和管理告警。当 Prometheus 检测到异常或达到某个预定的阈值时，它将生成告警并将其发送到 Alertmanager。Alertmanager 可以进行静默、分组、抑制和路由告警，并将它们发送到不同的接收端，如电子邮件、Slack 等

.NetCore项目准备

基于我的一个示例项目进行改造，项目地址：https://gitee.com/AZRNG/my-example ，为了演示一个基本的监控效果，监控的数据也只是请求，具体生产环境需要监控什么业务，这个看具体情况了，这里需要在原来的项目基础上需要安装以下nuget包

<PackageReference Include="OpenTelemetry.Exporter.Prometheus.AspNetCore" Version="1.7.0-alpha.1" />

<PackageReference Include="OpenTelemetry.Extensions.Hosting" Version="1.7.0" />

然后就可以注入服务，这里只是举例操作

services.AddOpenTelemetry()

        .WithMetrics(builder =>

        {

            builder.AddPrometheusExporter();

            builder.AddMeter("Microsoft.AspNetCore.Hosting", "Microsoft.AspNetCore.Server.Kestrel");

        });

最后记得要使用服务

app.MapPrometheusScrapingEndpoint();

启动项目后访问 ip+ metrics访问页面

然后将该示例项目使用docker部署到服务器上，如果要使用该示例项目，记得切换分支到develop，将项目拉取到服务器，然后进入项目目录，执行命令去生成容器

sudo docker-compose up -d

部署成功截图如下

访问地址 http://192.168.82.163:8001/metrics

安装监控和可视化程序

准备一个服务器，提前安装好了docker以及docker-compose程序，版本示例如下

关于Prometheus和Grafana可以通过docker进行安装到服务器中，可以参考仓库：https://gitee.com/AZRNG/common-docker-yaml

安装Prometheus

因为这里我只是用于做demo演示效果，所以我并没有取考虑挂载的问题，生产环境使用记得挂载数据

version: '3'

services:

  prometheus: # 访问：http://localhost:9090/targets

   image: prom/prometheus:v2.37.6

   container_name: prometheus

   command:

     - '--config.file=/etc/prometheus/prometheus.yml'

     - '--storage.tsdb.path=/prometheus'

     - '--web.console.libraries=/usr/share/prometheus/console_libraries'

     - '--web.console.templates=/usr/share/prometheus/consoles'

     - '--web.external-url=http://localhost:9090/'

     - '--web.enable-lifecycle'

     - '--storage.tsdb.retention=15d'

   volumes:

     #- /etc/localtime:/etc/localtime:ro

     - ./config/prometheus/:/etc/prometheus/

     #- ./data/prometheus:/prometheus

   ports:

     - 9090:9090

   links:

     - alertmanager:alertmanager

  alertmanager: # 告警服务

   image: prom/alertmanager:v0.25.0

   container_name: alertmanager

   ports:

     - 9093:9093

   volumes:

    #  - /etc/localtime:/etc/localtime:ro

     - ./config/prometheus/:/etc/alertmanager/

   command:

     - '--config.file=/etc/alertmanager/alertmanager.yml'

     - '--storage.path=/alertmanager'

关于prometheus.yml内容如下

# 全局配置

global:

  scrape_interval: 15s

  evaluation_interval: 15s

  # scrape_timeout is set to the global default (10s).

# 告警配置

alerting:

  alertmanagers:

    - static_configs:

        - targets: ['localhost:9093']

# 加载一次规则，并根据全局“评估间隔”定期评估它们。

rule_files:

  - "/config/rules.yml"

# 控制Prometheus监视哪些资源

# 默认配置中，有一个名为prometheus的作业，它会收集Prometheus服务器公开的时间序列数据。

scrape_configs:

  # 作业名称将作为标签“job=<job_name>`添加到此配置中获取的任何数据。

  - job_name: 'prometheus'

    static_configs:

      - targets: ['localhost:9090']

  - job_name: 'node' # .NetCore服务地址

    static_configs:

      - targets: ['localhost:9100']

        labels:

          env: dev

          role: docker

alertmanager.yml文件，我并没有做配置，暂时搞了一个默认的

global:

  resolve_timeout: 5m

  smtp_smarthost: 'xxx@xxx:587'

  smtp_from: 'zhaoysz@xxx'

  smtp_auth_username: 'xxx@xxx'

  smtp_auth_password: 'xxxx'

  smtp_require_tls: true

route:

  group_by: ['alertname']

  group_wait: 10s

  group_interval: 10s

  repeat_interval: 1h

  receiver: 'test-mails'

receivers:

- name: 'test-mails'

  email_configs:

  - to: 'scottcho@qq.com'

rule.yml文件内容如下

groups:

- name: example

  rules:

 # Alert for any instance that is unreachable for >5 minutes.

  - alert: InstanceDown

    expr: up == 0

    for: 1m

    labels:

      serverity: page

    annotations:

      summary: "Instance {{ $labels.instance }} down"

      description: "{{ $labels.instance }} of job {{ $labels.job }} has been down for more than 5 minutes."

然后就可以运行docker-compose命令去生成容器，示例如下

然后访问Ip地址加端口访问页面，比如http://192.168.81.139:9090/

打开这个界面就说明安装好了，这个时候我们看下 http://192.168.81.139:9090/targets?search= 页面

这个node报错是因为这个地址是无效了，那么修改为真是.NetCore的服务地址，修改配置文件然后重新启动

重启后界面显示如下

安装Granfana

这里直接使用docker来安装grafana

sudo docker run --name grafana -d -p 8000:3000 grafana/grafana

然后访问地址 ip+ 8000，默认账号密码为admin/admin

添加数据源

填写prometheus地址

导入仪表盘

创建文件夹用来存放我们本地的要导入的文件

想要在Grafana中进行数据的展示，需要导入dashborards模板，本文的模板我是从微软仓库找到的，地址为：https://github.com/dotnet/aspire/tree/main/src/Grafana

分别点进去下载这两个仪表盘对应的的json文件即可，也可以去我common-docker-yaml仓库中下载

然后导入json文件

导入aspnetcore.json文件，并选择我们的netcore文件夹以及选择刚刚我们创建的Prometheus数据源

导入aspnetcore-endpoint.json文件

这个时候我们就看到了好看的仪表盘

当我点击接口让其报错，那么就显示到界面上

如果需要监控其他内容，也可以模仿着进行修改。

使用OpenTelemetry进行监控的更多相关文章

手把手教你学Dapr - 2. 必须知道的概念
Sidecar 边车 Dapr API提供Http和gRPC两种通讯方式. 运行方式则可以是容器也可以是进程(Windows开发推荐使用Self Hosted,后续会解释). 这样的好处是与运行环境无 ...
OpenTelemetry - 云原生下可观测性的新标准
CNCF 简介 CNCF(Cloud Native Computing Foundation),中文为"云原生计算基金会",CNCF是Linux基金会旗下的基金会,可以理解为一个非 ...
当 .NET 5 遇上OpenTelemetry，会碰撞出怎样的火花？
OpenTelemetry 介绍我在之前的几篇文章都介绍了 OpenTelemetry, 你可以在这里找到 OpenTelemetry - 云原生下可观测性的新标准深入研究 .NET 5 的开放式 ...
如何使用 HttpReports 监控 .NET Core 应用程序
简介 HttpReports 基于.NET Core 开发的APM监控系统,使用MIT开源协议,主要功能包括,统计, 分析, 可视化, 监控,追踪等,适合在中小项目中使用. github:https: ...
Sentry 监控 - 全栈开发人员的分布式跟踪 101 系列教程(第一部分)
系列 1 分钟快速使用 Docker 上手最新版 Sentry-CLI - 创建版本快速使用 Docker 上手 Sentry-CLI - 30 秒上手 Source Maps Sentry For ...
Sentry 开发者贡献指南 - SDK 开发(性能监控)
内容整理于官方开发文档系列 Docker Compose 部署与故障排除详解 K8S + Helm 一键微服务部署 Sentry 开发者贡献指南 - 前端(ReactJS生态) Sentry 开发者 ...
Sentry 开发者贡献指南 - SDK 开发(性能监控：Sentry SDK API 演进)
内容整理自官方开发文档本文档的目标是将 Sentry SDK 中性能监控功能的演变置于上下文中. 我们首先总结了如何将性能监控添加到 Sentry 和 SDK, 然后我们讨论 identified ...
Go微服务框架go-kratos实战05：分布式链路追踪 OpenTelemetry 使用
一.分布式链路追踪发展简介 1.1 分布式链路追踪介绍关于分布式链路追踪的介绍,可以查看我前面的文章微服务架构学习与思考(09):分布式链路追踪系统-dapper论文学习(https://www. ...
基于 OpenTelemetry 的链路追踪
链路追踪的前世今生分布式跟踪(也称为分布式请求跟踪)是一种用于分析和监控应用程序的方法,尤其是使用微服务架构构建的应用程序.分布式跟踪有助于精确定位故障发生的位置以及导致性能差的原因. 起源链路追 ...
使用Monit监控本地进程
目前用它监控某些服务,失败自动重启,同时监控特定的日志文件,如果有变化,就发邮件报警安装不细写了,网上好多我先用cat /proc/version看了下我的系统是el6的,于是wget http: ...

随机推荐

Ant Design Vue 单文件上传Upload
单文件上传 <a-upload name="file" :beforeUpload="beforeUpload" :multiple="fals ...
分享一个项目：`learning_go_plan9_assembly`，学习 golang plan9 汇编
作者:张富春(ahfuzhang),转载时请注明作者和引用链接,谢谢! cnblogs博客 zhihu Github 公众号:一本正经的瞎扯近期在学习 golang plan9 汇编,总算基本做到了 ...
Abp 模板更换数据库版本为V5.x,遇到的问题
数据库的选择: Mysql使用5.0.0的版本,根据在下面的依赖项大于等于5.0.5 && 小于6.0.0 Microsoft.EntityFrameworkCore.Tools和M ...
TienChin 活动管理-添加活动接口
ActivityController @PreAuthorize("hasPermission('tienchin:activity:create')") @Log(title = ...
JVM（Java虚拟机）整理
JVM整体结构本文主要说的是HotSpot虚拟机, JVM 全称是 Java Virtual Machine,中文译名:Java虚拟机简化一下: Java字节码文件 Class文件本质上是一个以8 ...
【深度学习项目三】ResNet50多分类任务【十二生肖分类】
相关文章: [深度学习项目一]全连接神经网络实现mnist数字识别 [深度学习项目二]卷积神经网络LeNet实现minst数字识别 [深度学习项目三]ResNet50多分类任务[十二生肖分类] 『深度 ...
Metasploit 生成各种后门
Metasploit 是一款开源的安全漏洞检测工具,可以帮助安全和IT专业人士识别安全性问题,验证漏洞的缓解措施,同时该工具也是渗透测试环境中的利器,它支持多平台Payload的生成具有完全的跨平台性 ...
从嘉手札<2024-1-17>
昨天我以为人生是一场体验是一辆不会回头的列车我们遇到了风景感悟了风景放下了风景构成了自己今天我以为静水流深.光而不耀可多思必多疑思维是一种极为复杂的东西我曾经觉得知行合一是对自我 ...
P5047 [Ynoi2019 模拟赛] Yuno loves sqrt technology II 题解
题目链接:Yuno loves sqrt technology II 很早以前觉得还挺难的一题.本质就是莫队二次离线,可以参考我这篇文章的讲述莫队二次离线 P5501 [LnOI2019] 来者不拒, ...
[转载自jayant97] nRF9160与nRF Cloud 超详细入门攻略
原文链接:nRF9160与nRF Cloud 超详细入门攻略 1. 产品简介 1.1. nRF Cloud nRF Cloud是Nordic Semiconducotr公司在AWS上搭建的IoT平 ...

使用OpenTelemetry进行监控