问题描述

云服务(Cloud Services)在使用期间,频繁发生崩溃事件,在崩溃期间,查看CPU负载为100%,而且同时伴随以下情况:

  1. 部署在云服务上的应用无法访问
  2. 远程连接云服务实例(RDP)访问黑屏,无法加载或Busy状态

排查方案

在问题的关键点中,CPU负载达到了100%。所以首先需要排查如下几点:

  • 当前云服务是单实例还是多实例?
  • 实例的机型是小还是大?是什么型号的机器呢?
  • 实例中运行的服务是不是非常耗费CPU?
  • CPU出现满负载的情况是否有时间规律?
  • 部署在云服务上的应用请求量是否与CPU100%的规律一致?

针对以上每一点,采用不同的解决方案。

一:修改云服务的实例数量

有多种方式修改云服务实例的数量。在门户中直接修改或修改云服务配置文件ServiceConfiguration.Cloud.cscfg中<Instances count="1" />数量

  • 云服务门户 -> 配置

  • 修改ServiceConfiguration.Cloud.cscfg后重新发布

二:修改云服务中实例机型的大小和型号

ServiceDefinition.csdef 文件指定 Azure 用于配置云服务的设置,在其中可以指定A,D,E等不同的系列机型。修改完成后重新打包云服务并进行部署。

修改方式如下:

三:查看实例中具体是那个进程消耗CPU最高及时间规律

在CPU高的情况下RDP到当前实例上,打开任务管理器,到进程选项,看一下是哪个进程占用的CPU比较高,这是当前直观的方式之一。其他方式还包含:

Performance Monitor 配置页面:

四:当CPU消耗与部署在云服务中的应用相关时,通过获取应用DUMP文件来判断CPU的具体消耗

当判断出是由于某个进程而引起的CPU消耗过高,但是需要进一步分析改进程为何会占用如此多资源时。就需要借助抓取dump和分析dump的工具,如:Procdump(抓取),DebugDiag(分析)

Procdump抓取Dump的运行下面的命令如下:

procdump.exe -ma 9332 -c 90 -s 30 -n 3

参数说明:

-ma: 表示抓full dump

-c: 设置CPU的阈值,比如例子中阈值是90%

-s: CPU 连续超过阈值的时间长度,比如例子中是30s,即只有在这个进程连续占用CPU 超多90%且持续30s才会抓dump;

-n: 抓dump的数量,比如3 

9332 是进程id

参考资料

配置云服务的大小: https://docs.azure.cn/zh-cn/cloud-services/cloud-services-sizes-specs#configure-sizes-for-cloud-services

【Azure Cloud Services】云服务频繁发生服务器崩溃的排查方案的更多相关文章

  1. Windows Azure -Azure 网站、云服务和虚拟机的对比

    Azure 网站.云服务和虚拟机对比 概述 Azure提供了几种方法来承载网站: Azure网站.云服务和虚拟机.本文帮助您了解选项和为您的Web应用程序做出正确选择. Azure网站是大多数web应 ...

  2. How to use VS2012 remote debug Windows Azure Cloud Services

    Background: Windows Azure Cloud Services 可以在本地调试,使用Visual Studio 2012 + 模拟器 Emulator.但是模拟器的工作状态和环境和真 ...

  3. Azure 网站、云服务和虚拟机比较

    最后更新时间(英文版):09/24/2014 最后更新时间(中文版):04/11/2015 Azure 提供几种方式托管 web 应用程序,如 Azure 网站.云服务和虚拟机.查看这些不同的选项后, ...

  4. Windows Azure移动终端云服务管理(公测版)

    概览 云在远方,管理在您手中.在这个移动为先 云为先的世界,服务不再是基于请求才提供,而是主动来到身边方便您的模式了.我们最近将会陆续推出几大移动端利器帮助您随时随地管理您的云服务. 首批利器之中排名 ...

  5. 继收购Magento十个月,Adobe推出Commerce Cloud商务云服务

    去年 5 月,软件巨头 Adobe 以 16.8 亿美元的价格,受过了 Magento .在经历了十个月的业务整合后,该公司终于推出了全新的 Commerce Cloud 商务云服务.据悉,其本质上是 ...

  6. Windows Azure中WebSite 网站, Cloud Service 云服务,Virtual Machine 虚拟机的比较

    在Windows Azure服务平台里,Web Site特点是: 在Windows Azure上构建高度可扩展的Web站点. 快速.轻松部署一个高度可扩展的云环境,并且可以从很小的规模开始. 使用您所 ...

  7. Windows Azure虚拟机和云服务实例计费方式更新

    在之前的Windows Azure计费账单中,A0,A1,A2,A3,A4系列的虚拟机(云服务实例)都是以A1为基准计费单位的,即: 虚拟机大小 计费单位(小时) A0 A1*0.25 A1 A1*1 ...

  8. 记一次腾讯云不能连接DNS服务器的问题排查过程

    由于腾讯云在使用过程中需要用到yum,在yum安装软件的时候报错不能连接到源的网站.当时经过排查发现域名没有解析.有可能是DNS服务器问题或者我的腾讯云DNS配置出现问题. 所以我查看了/etc/re ...

  9. microsoft azure Media Services 媒体服务解决方案

    用安全的方式为您随时随地跨设备传送媒体内容.提供可伸缩的端到端媒体解决方案 可用于高级视频工作流的云 实现奥运会规模的直播与点播媒体传送 高可用的编码和流式处理 支持 Flash.iOS.Androi ...

  10. linux云服务搭建Minecraft服务器

    1 准备工作 以下内容全部要在root用户内完成 1.1 安装文件传输工具 为了方便传文件到服务器上,这里先装一个远程传输工具. yum -y install lrzsz 1.2 安装java Min ...

随机推荐

  1. [转载]关于NSA的EternalBlue(永恒之蓝) ms17-010漏洞利用

    2017年5月19日   感谢原作者:http://www.cnblogs.com/cnbluerain/           好久没有用这个日志了,最近WannaCry横行,媒体铺天盖地的报道,我这 ...

  2. 你不知道的<input type="file">的小秘密

    限制file上传类型 很多时候,我们都需要使用 <input type="file"> 进行文件上传. 在上传的时候,我们需要对文件类型进行限制. 如果上传图片的时候. ...

  3. ClickHouse(08)ClickHouse表引擎概况

    目录 合并树家族 日志引擎系列 集成的表引擎 其他特殊的引擎 资料分享 参考文章 目前ClickHouse的表引擎主要有下面四个系列,合并树家族.日志引擎系列.集成的表引擎和其他特殊的引擎. 合并树家 ...

  4. js下载附件(文件时候),文件名一直不出现乱码

    if (lastUrl.name) { //我们后端很奇怪有时候是个对象属性,有时候是个string window.open(url + `?attname=${lastUrl.name}`); } ...

  5. 3.0 熟悉IDAPro静态反汇编器

    IDA Pro 是一种功能强大且灵活的反汇编工具,可以在许多领域中发挥作用,例如漏洞研究.逆向工程.安全审计和软件开发等,被许多安全专家和软件开发者用于逆向工程和分析二进制代码.它支持大量的二进制文件 ...

  6. django orm 筛选

    import os os.environ.setdefault("DJANGO_SETTINGS_MODULE", "test.setting") import ...

  7. [Go] string、int、int64相互转换

    import "strconv" //先导入strconv包 // string到int int, err := strconv.Atoi(string) // string到in ...

  8. 苹果新一代“超级芯片”曝光:M3 Ultra最高可达32核CPU

    近日,据外媒消息,苹果计划在2024年推出新一代"超级芯片"M3 Ultra. 据悉,M3 Ultra将大幅增加CPU核心数量,同时GPU核心数量也将适度增加. 具体来说,M3 U ...

  9. 史上最大电池!小米智能家庭屏Pro 8图赏

    今天小米智能家庭屏 Pro 8正式开售,集智能家居中控,智能网关以及娱乐教育三大功能为一体,首发749元. 它是一款全新的智能生态产品中控屏,配备了7500mAh大容量电池以及通用性更好的USB Ty ...

  10. DbgridEh表格框的【可连续点击两次编辑设置,和不允许点击两次编辑的设置】