通过Azure App Service门户,启用Health Check来监视应用服务的实例,当发现其中一个实例处于不健康(unhealthy)状态时,通过重新路由(即把有问题的实例从负载均衡器中移除, Load Balancer)的方式把请求发送到健康的实例上。并且如果不健康的实例一直存在问题,系统则会启动一个新实例来替换不健康的这个实例。

This article uses Health check in the Azure portal to monitor App Service instances. Health check increases your application's availability by re-routing requests away from unhealthy instances, and replacing instances if they remain unhealthy.

应用服务计划应该扩展到两个或者更多的实例,以充分利用Health Check功能。并且应该是对应用的关键组件进行监控检查。

Your App Service plan should be scaled to two or more instances to fully utilize Health check. The Health check path should check critical components of your application.

例如:如果应用依赖于数据库和一个Message系统,那么Health Check应该设置在需要与数据库连接,Message系统连接的功能点。当应用关键组件出现异常时,通过返回500的状态码告诉Health Check表示当前实例的运行状态为不健康(unhealthy)。

For example, if your application depends on a database and a messaging system, the Health check endpoint should connect to those components. If the application cannot connect to a critical component, then the path should return a 500-level response code to indicate the app is unhealthy.

Health Check 会做些什么呢?

1)通过启用Health Check功能时配置的请求URL,应用服务的所有实例将会每间隔1分钟对该URL请求一次。

2)如果某一个实例在连续两次或多次无法处理URL请求(响应状态不在200 ~ 299 间),或者根本就无法响应URL的请求,则系统将判定这一个实例为不健康状态并将其从请求路由表中删除以便于不处理真正的业务请求。

3)当从路由表中移除后,Health check将继续对这一个不健康的实例发送请求,如果这个实例一直没有成功响应,App Service将会重启底层的VM,努力尝试修复它并让它正常工作。

4)如果这一个实例在一个小时内,一直都是unhealthy状态,它将会被新的实例所取代。

5)此外,在向外扩展实例(添加新实例),App Service也会使用Health check中所配置的请求URL,确保当前实例已做好充分准备,正式接受真正业务请求。

注意:Health check不支持 302 重定向。 每小时最多更换一个实例,每个应用服务计划每天最多更换三个实例。

启用 Health Check

  • 为了启用Health Check,进入App Service的Azure 门户页面,然后选择Health Check目录
  • 选择” 启用 “按钮,并输入一个有效的URL,可以对应用的健康状态起健康检测的相对路径,例如:/health  or /api/health
  • 点击” 保存 “按钮

注意:Health Check启用或更改会重启当前应用程序。为了尽量减少对生产应用程序的影响,建议配置在Staging slots后,通过交换部署槽的方式发布到生产。

Health Check的配置选项

为了修改默认的Health Check配置选项,可以在应用程序的设置(Application Setting)修改参数: WEBSITE_HEALTHCHECK_MAXPINGFAILURESWEBSITE_HEALTHCHECK_MAXUNHEALTHYWORKERPERCENT

  • WEBSITE_HEALTHCHECK_MAXPINGFAILURES : 允许值为 2 ~10 。将实例视为unhealthy并将从负载均衡器中移除所需要满足的失败请求次数。例如,当设置为2时,实例将在2次ping失败后被删除(默认值为10)
  • WEBSITE_HEALTHCHECK_MAXUNHEALTHYWORKERPERCENT : 允许值为 0 ~ 100。默认情况下,一次将不超过一般的实例数从负载均衡器中移除,以避免压倒剩余的健康实例。例如,如果应用服务计划扩展到四个实例并且三个不正常,则两个将被排除。 另外两个实例(一个健康和一个不健康)将继续接收请求。 在所有实例都不健康的最坏情况下,不会排除任何实例。 将值修改为 0 到 100 之间,更高的值意味着将删除更多不健康的实例(默认值为 50)。

Health Check的身份认证和安全

Health Check与应用服务的身份验证和授权功能集成。 如果启用了这些安全功能,则不需要其他设置。

如果使用的是自定义的身份验证系统,则健康检查路径(Health Check Path)必须允许匿名访问。

要保护 Health Check Endpoint,应该首先使用 IP 限制、客户端证书或虚拟网络等功能来限制应用程序访问。 可以通过要求传入请求的 User-Agent 匹配 HealthCheck/1.0 来保护Health Check Endpoint。 User-Agent 不能被欺骗,因为请求已经被先前的安全功能保护了。

Health Check Metrics指标

启用 App Service 的Health Check后,可以使用 Azure Monitor 监视站点的运行状况。操作步骤如下:

常见问题

1: 如果应用程序在单个实例上运行会发生什么?

如果应用程序仅扩展到一个实例并且变得不健康,它不会从负载均衡器中删除,因为这会导致您的应用程序完全停机。 将两个或更多实例扩展到两个或更多实例,以获得Health Check的重新路由优势。 如果应用程序在单个实例上运行,仍然可以使用 Health check 的监控功能来跟踪应用程序的健康状况。

2: 为什么健康检查请求没有显示在前端日志中?

Health Check请求在内部发送到站点,因此该请求不会显示在前端日志中。这也意味着请求的来源为 127.0.0.1,因为它是在内部发送的请求。可以在Health Check Path页面的代码中添加日志语句,以保留Health Check URL何时被 ping 的日志。

3: Health Check请求是通过 HTTP 还是 HTTPS 发送的?

当站点上启用 HTTPS Only 时,Health Check请求将通过 HTTPS 发送。否则,它们将通过 HTTP 发送。

4: 如果在同一个应用服务计划中有多个应用怎么办?

无论应用服务计划中的其他应用如何(最多达到 WEBSITE_HEALTHCHECK_MAXUNHEALTHYWORKERPERCENT 中指定的百分比),运行状况不佳的实例将始终从负载均衡器轮换中删除。

当实例上的应用程序保持不健康状态超过一小时时,仅当所有其他启用Health Check的应用程序也处于不健康状态时,才会更换该实例。未启用Health Check的应用程序将不会被考虑在内。

例如:

假设您有两个应用程序启用了Health Check,称为App A 和App B。它们在同一个应用服务计划中,并且该计划扩展到 4 个实例。

  • 如果 App A 在两个实例上变得不健康,负载均衡器将停止向这两个实例上的 App A 发送请求。 假设 App B 是正常的(Healthy),请求仍会在这些实例上路由到 App B。
  • 如果 App A 在这两个实例上保持不健康状态超过一个小时,则只有当 App B 在这些实例上也不健康时,才会替换这些实例。 如果 App B 健康,则不会替换实例。

注意:如果在同一个应用服务计划下还有另外一个App Serice,它没有启用Health Check,则该实例将永远不会因为Health Check功能而被替换。所以建议对重要的应用程序单独部署在一个应用服务计划中,并开启Health Check。

5: 如果所有实例都不健康怎么办?

在应用程序的实例不正常的情况下,应用服务将从负载均衡器中删除实例,最多可达 WEBSITE_HEALTHCHECK_MAXUNHEALTHYWORKERPERCENT 中指定的百分比。

在所有实例都不健康的最坏情况下,不会排除任何实例。

6: 测试Health Check的.Net代码 (设置Health Check Path为 /fail

创建一个默认的.NET Core API项目,在 Program.cs 文件中替换默认的Host Builder方法。

  • 通过发送一个/fail的请求,人为的设置请求返回为500。使得Health Check功能认为当前实例为不健康(unhealthy)
  • 在Host启动的时候会自动生产一个GUID,用于标记当前实例。以便于在后续的验证中跟踪实例处理请求的行为或重启动作
  • 启用Health Check功能后,所以实例都会收到并处理 /fail 请求,返回500.
using System;
using System.Collections.Generic;
using System.Linq;
using System.Threading.Tasks;
using Microsoft.AspNetCore.Builder;
using Microsoft.AspNetCore.Hosting;
using Microsoft.AspNetCore.Http;
using Microsoft.Extensions.Configuration;
using Microsoft.Extensions.Hosting;
using Microsoft.Extensions.Logging; namespace hellodotnetcore
{
public class Program
{
public static void Main(string[] args)
{
CreateHostBuilder(args).Build().Run();
} public static IHostBuilder CreateHostBuilder(string[] args)
{
//初始化当前Host实例时候随机生成一个GUID,用于在此后的请求中判断当前时候是否被标记为健康,非健康,回收。
var instance = Guid.NewGuid();
//firstFailure来记录第一个失败请求所进入当前实例的时间,firstFailure保存在内存中
DateTime? firstFailure = null; return Host.CreateDefaultBuilder(args)
.ConfigureWebHostDefaults(webBuilder =>
webBuilder.Configure(configureApp =>
configureApp.Run(async context =>
{
//当请求URL为fail时候,认为设置返回状态为500,告诉App Service的Health Check功能,当前实例出现故障。
if (firstFailure == null && context.Request.Path.Value.ToLower().Contains("fail"))
{
firstFailure = DateTime.UtcNow;
} if (firstFailure != null)
{
context.Response.StatusCode = 500;
context.Response.ContentType = "text/html; charset=utf-8";
await context.Response.WriteAsync(
$"当前实例的GUID为 {instance}.\n" +
$"这个实例最早出现错误的时间是 {firstFailure.Value}.\n\n" +
$"根据文档的描述 https://docs.microsoft.com/en-us/azure/app-service/monitor-instances-health-check, 如果一个实例在一直保持unhealthy状态一小时,它将会被一个新实例所取代\n\n" +
$"According to https://docs.microsoft.com/en-us/azure/app-service/monitor-instances-health-check, \"If an instance remains unhealthy for one hour, it will be replaced with new instance.\".");
}
else
{
context.Response.StatusCode = 200;
context.Response.ContentType = "text/html; charset=utf-8";
await context.Response.WriteAsync($"当前实例的GUID为 {instance}.\n" +
$"此实例报告显示一切工作正常.");
}
}))); //public static IHostBuilder CreateHostBuilder(string[] args) =>
// Host.CreateDefaultBuilder(args)
// .ConfigureWebHostDefaults(webBuilder =>
// {
// webBuilder.UseStartup<Startup>();
// });
}
}
}

在本地测试以上代码效果如下:

参考资料

Monitor App Service instances using Health check:https://docs.azure.cn/zh-cn/app-service/monitor-instances-health-check

【Azure 应用服务】App Service 运行状况健康检查功能简介 (Health check)的更多相关文章

  1. 【应用服务 App Service】快速获取DUMP文件(App Service for Windows(.NET/.NET Core))

    问题情形 当应用在Azure 应用服务App Service中运行时,有时候出现CPU,Memory很高,但是没有明显的5XX错误和异常日志,有时就是有异常但是也不能明确的指出具体的代码错误.当面临这 ...

  2. 【应用服务 App Service】Azure 应用服务测试网络访问其他域名及请求超时限制(4分钟 ≈ 230秒)

    测试App Service是否可以访问其他DNS 当应用服务(Azure App Service)创建完成后,想通过ping命令来查看是否可以访问其他站点或解析DNS,但是发现ping命令无法使用.这 ...

  3. 【应用服务 App Service】App Service中抓取网络日志

    问题描述 众所周知,Azure App Service是一种PaaS服务,也就是说,IaaS层面的所有内容都由平台维护,所以使用App Service的我们根本无法触碰到远行程序的虚拟机(VM), 所 ...

  4. idou老师教你学Istio 14:如何用K8S对Istio Service进行流量健康检查

    Istio利用k8s的探针对service进行流量健康检查,有两种探针可供选择,分别是liveness和readiness: liveness探针用来侦测什么时候需要重启容器.比如说当liveness ...

  5. nginx的健康检查功能将挂掉的Tomcat舍弃

    1.Ngninx自带健康检查功能,能将挂掉的服务器舍弃,不在访问路径里 2.Nginx还有URL重写功能,能将接收到的请求,进行改写,再将新的URL分发到后端服务器上

  6. 【应用服务 App Service】Azure App Service 中如何安装mcrypt - PHP

    问题描述 Azure App Service (应用服务)如何安装PHP的扩展 mcrypt(mcrypt 是php里面重要的加密支持扩展库) 准备条件 创建App Service, Runtime ...

  7. 【应用服务 App Service】解决无法从Azure门户SSH登录问题

    问题描述 中国区的Azure App Service(应用服务)已经支持创建Docker并选择Linux环境.在使用中,我们可以继续通过kudu站点的方式登录查看站点的一些日志及部署文件.它的登录方式 ...

  8. 【应用服务 App Service】在Azure App Service中使用WebSocket - PHP的问题 - 如何使用和调用

    问题描述 在Azure App Service中,有对.Net,Java的WebSocket支持的示例代码,但是没有成功的PHP代码. 以下的步骤则是如何基于Azure App Service实现PH ...

  9. 【应用服务 App Service】当使用EntityFrameWorkCore访问Sql Server数据库时,在Azure App Service会出现Cannot create a DbSet for ** because this type is not included in the model for the context的错误

    问题情形 使用EF Core访问数据库,在本地运行正常,发布到App Service后,偶尔出现了Cannot create a DbSet for ** because this type is n ...

随机推荐

  1. 冷饭新炒 | 深入Quartz核心运行机制

    目录 Quartz的核心组件 JobDetail Trigger 为什么JobDetail和Trigger是一对多的关系 常见的Tigger类型 怎么排除掉一些日期不触发 Scheduler List ...

  2. Excel对单元格设置上涨、下降箭头

    1.有以下学生成绩表,对期末考试设置上涨.下降箭头,体现考生成绩变动: 2.选中C2,"条件格式"-"管理规则"-"新建规则"-" ...

  3. 关于VIM的迁移

    将Gvim7.3从我笔记本拷到公司的电脑上面时, 这问题留了好久没有去解决.语法高亮无效不管我怎么设置 syntax enable,还是遇到这个问题. 后来在偶然的情况下,将我笔记本上面的文件在拷一份 ...

  4. AcWing 1289. 序列的第k个数

    BSNY 在学等差数列和等比数列,当已知前三项时,就可以知道是等差数列还是等比数列. 现在给你 整数 序列的前三项,这个序列要么是等差序列,要么是等比序列,你能求出第k项的值吗. 如果第k项的值太大, ...

  5. 其他:Git生成SSH、Git生成本地库、下载远程库代码 命令

    1.安装Git Bash https://git-scm.com/downloads 2.鼠标右键git bash here 3.执行以下命令: ①   cd ~/.ssh/    [如果没有对应的文 ...

  6. php漏洞 md5函数漏洞

    0x01: 背景:php在处理哈希值时,用!=和==来比较的时候,如果哈希字符串以0E开头的时候,哈希值会默认为0,所以两个不同的字符串经过md5加密成哈希值,如果哈希值开头是0E的话,会默认成相等. ...

  7. 26. Remove Duplicates from Sorted Array*(快慢指针)

    description: Given a sorted array nums, remove the duplicates in-place such that each element appear ...

  8. sscanf功能详解(转)

    #include <stdio.h> #include <stdlib.h> #include <string.h> static void sscanf_test ...

  9. P5816 [CQOI2010]内部白点 题解

    [题目链接] [解析] 好题. 拿到题目首先先看一下它的无解情况是怎么判断的. 然后很明显这个是不存在无解情况的. 因为它的黑点开始都是给定了的,可以理解为一个边界. 而新的变化的黑点不会往外扩张,那 ...

  10. c++中的继承关系

    1 什么是继承 面向对象的继承关系指类之间的父子关系.用类图表示如下: 2 为什么要有继承?/ 继承的意义? 因为继承是面向对象中代码复用的一种手段.通过继承,可以获取父类的所有功能,也可以在子类中重 ...