云计算平台中允许客户依据应用的负载进行云计算资源的弹性动态伸缩(理想的情况是实现一个用多少付费多少的模型,最大限度地降低用户的运营成本)

在进行讨论之前,先对几个名词进行定义

1)客户:使用云服务的人,在云上部署他的应用

2)用户: 使用部署在云上的应用的人

Auto-scaling的基础

云计算的一个关键特点是弹性伸缩,但它是一把双刃剑,因为它允许应用依据负载动态地申请和释放资源,但是确定一个合适的资源量并不容器,那么需要一个系统自动地依据负载来调整资源量(尽可能得减少人工的干预)。

资源的伸缩主要有两种:

1)垂直伸缩:简单的说就是伸缩的时候以虚拟机为单位,直接增加或减少虚拟机的数量

2)水平伸缩:对虚拟机的内部的资源(如CPU、存储等)进行伸缩

但大多数操作系统在水平扩容时都需要重新启动虚拟机,因此很多云服务商都只提供垂直伸缩。

那怎么样来判断一个一个auto-scaling系统是否合格呢:

1)在客户(应用的部署者)和终端用户之间的Service Level Agreement (SLA),比如说满足一定的响应时间

2)在云服务提供商和客户之间的SLA,比如说满足云平台的一定的资源利用率

Auto-scaling的实现主要面临几个问题:

1)Under-provisioning:即应用没有获得足够的资源来应对用户的请求,不能满足SLA,需要增加更多的资源

2)Over-provisioning:即应用在满足SLA后还有过多的资源,客户付出了不必要的成本

3)Oscillation:当伸缩的动作执行的过快时,可能会出现资源波动的现象(刚刚扩容又缩容)。可以伸缩后添加一个懒惰时间(此时不进行任何伸缩扩容)来避免波动

Auto-scalin系统一般包含四个部分:

1)Monitoring:监控系统主要是获得系统和应用的状态信息

硬件信息: CPU利用率,存储利用率,网络接口

操作系统进程:缺页,CPU调度

负载均衡: 请求访问队伍的长度,当前对话的进程数量,拒绝请求的数量

2)Analysis: 分析监控系统的信息估计未来的资源使用情况和需求

           reactive:使用从监控系统获得的最后的系统值进行判断。不做任何预测,仅仅当检测到系统负载变化时才会做出响应。难以应对突发的负载

     proactive:着重通过预测未来的需求来完成对资源的分配

3)Planning: 制定一个合适的资源伸缩计划

4)Execution:执行

 Auto-scaling技术

        1  static threshold-based rule

    云服务提供商大多仅仅使用基于阈值的规则提供 reactive的自动伸缩 。这种方法是预先设定一个阈值,当系统状态到达这个阈值时,就会触发自动伸缩的功能。

    这种auto-scaling方法因其比较简单,这对于客户来说很有吸引力。但是它也有缺点:第一是为应用设定一个阈值需要对应用负载的趋势有一个很深的认识,第二在面对突发的负载时,这种方法的时效性比较低,反应比较慢

    基于阈值的规则一般会设定最少两个规则,一个用来扩容,一个用来缩容,例如:

    例子中x是系统状态的值,thrU是设置的上阈值,thrL是设置的下阈值,durU的时间是在遇到这种情况是多少秒内会触发,S是每次扩容的值,inU是这伸缩执行后多少时间内不进行任何伸缩(用于防止波动)

    举一个简单例子是,当平均的CPU资源利用率超过70%的时间持续超过5分钟时,扩充两个虚拟机,并且在接下来的10分钟内不做任何伸缩

        2  control theory

    控制变量u(例如 虚拟机的数量)目标系统的输入,受控变量y(如CPU负载)是目标系统的输出。    

    控制器通过调整控制变量u来保持受控变量y接近期望的值或者预先设定 的yref。为了实现这个目的,就要构建输入与输出之间的模型,它决定了输入如何影响输出的值。

    常见的控制器有以下几种:

      1)Fixed gain controllers(固定增益控制器):这类控制器比较简单,在确定参数后,参数在控制器运行时间内不变

      2)Adaptive controllers(自适应控制器):能够依据条件的变化在线自动调整参数,适用于缓慢变化的负载环境,不适用与突变的环境

3)Model predictive controllers (模型预测控制器):基于模型和当前的输出预测系统未来的行为

控制论的效率取决于控制器的种类和目标系统的动态变化,构建一个可靠的映射输入和输出变量的模型并不容易

        3  reinforcement  learning

    加强学习的方法无需任何先验的知识,就能够为每一个应用状态设计一个最优的伸缩策略。它着重学习机构(例如,auto-scaler)和它的环境(例如应用)之间的直接交互

     其中α是学习率(learning rate),γ 是贴现因子(discount factor)

    加强学习的方法主要有几个缺点:

      1)初始的性能很差并且需要很长的训练时间

        比较好的解决方法是在前期先用其他的代替方法来控制auto-scaling的系统,同时加强学习的模型也进行训练,待训练好时再使用加强学习 模型控制系统

2)需要很大的状态空间,在最简单的形式中,查找表用于为每一个可能的状态动作对存储一个单独的值,这些状态是成指数级增长的,所以当查找表很大时,每一次访问都可能需要很长的时间

        用查找表来表示Q函数并不高效,可以使用其他非线性的函数(如 neural networks, CMACs (Cerebellar Model Articulation Controllers), regression trees, support vector machines)

      3)最佳模型的适应性比较差,加强学习方法能够很好地解决相对缓和的变化,但是对于突发的负载变化表现并不好,因为它需要寻找新的最佳策略

        4  queuing theory

      排队论可以用来估计系统的性能指标(例如队伍的长度、请求的平均等待时间),可以分为简单的队列模型和复杂的队列网络

      排队论的基础机构如上图所示,请求到达系统后将入队,直到它们执行完才出队。

      在一个标准的auto-scaling系统中,一个队伍可由A/B/C/K/N/D(如:例如: M/M/1/ ∞/ ∞/FIFO )来表示,其中K,N,D是可选的

        A:Inter-arrival time distribution(到达时间间隔分布)

        B: Service time distribution. (服务时间分布)

            常见的A和B的值有:M,D,G

M:表示Markovian(马尔可夫链),它指的是一个泊松分布的过程,它的特征是一个参数单位λ (表示每个时间单位到达的请求),因此到达时间或者服务时间将服从指数分布

D:表示为一个固定的值

G:对应于具有已知参数的一般分布

          C:Number of servers.(服务器数量)

         K:System capacity or queue length(系统能力或队伍长度):即系统最多能服务的用户数量

N: Calling population (要求服务的总体)  

      D: Service discipline or priority order(服务纪律或优先次序): 先来先服务……

        队列模型通常被用在一些固定的系统结构中,因为任何系统结构或者参数需求的变化都需要重新构建模型。此外队列模型是一个分析工具,它还需要另外的一个组件来完成auto-scale。

总的来说排队论在设计一个通用的auto-scaling系统时可能并不是一个最好的选择。

        5  timeseries analysis

    时间序列是在一个固定的时间间隔(如每分钟)采集系统的性能指标(如平均CPU负载)。它得到的结果X包含一组w(时间序列的长度)个观察值

时间序列方法可以基于最新的q(滑动窗口值,q<=w)预测未来的时间序列的值。时间序列分析技术尝试识别时间序列所遵循的模式,然后使用这种模式来推断未来的价值。

时间序列模式可以用四种特性来描述:趋势(trend),季节性(seasonality),周期性(cyclical),随机性(randomness)。系统性能指标总体的趋势(上升或者下降)的变化会在一个时间序列上重复出现(例如,日、周、月或季节)。趋势主要表明系统性能指标的总体变化,季节性和周期性分别决定在一个特定的时间点上短期和长期的峰值。

    

参考文章:A Review of Auto-scaling Techniques for Elastic Applications in Cloud Environments

虚拟机(Visual Machine)的云平台的自动伸缩扩容(auto-scaling)技术的更多相关文章

  1. java分布式电子商务云平台b2b b2c o2o需要准备哪些技术??

    技术解决方案 开发语言: java.j2ee 数据库:mysql JDK支持版本: JDK1.6.JDK1.7.JDK1.8版本 核心技术:分布式.云服务.微服务.服务编排等. 核心架构: 使用Spr ...

  2. 完整部署CentOS7.2+OpenStack+kvm 云平台环境(3)--为虚拟机指定固定ip

    之前在测试环境(centos7.2)上部署了openstack云平台(完整部署CentOS7.2+OpenStack+kvm 云平台环境(1)--基础环境搭建),openstack在neutron组网 ...

  3. kubernetes云平台管理实战:HPA水平自动伸缩(十一)

    一.自动伸缩 1.启动 [root@k8s-master ~]# kubectl autoscale deployment nginx-deployment --max=8 --min=2 --cpu ...

  4. 轻松搭建Windows8云平台开发环境

    原文:轻松搭建Windows8云平台开发环境 Windows Store应用是基于Windows 8操作系统的新一代Windows应用程序,其开发平台以及运行模式和以往传统平台略有不同.为了帮助更多开 ...

  5. Microsoft Azure 微软云平台系列新品发布

    在移动为先,云为先的今天,微软为拥抱云文化的企业提供了技术和工具.利用创新且全面的移动解决方案和开发者工具,微软有独到之处,它帮助所有客户在云为先时代中发现潜在价值. 正如希望加快云创新步伐的你们所期 ...

  6. OpenStack(二)——使用Kolla部署OpenStack-allinone云平台

    (1).Kolla概述 Kolla是OpenStack下用于自动化部署的一个项目,它基于docker和ansible来实现,其中docker主要负责镜像制作和容器管理,ansible主要负责环境的部署 ...

  7. 云平台发展前沿报告 微软云平台——Windows Azure

    微软云平台——Windows Azure Windows Azure 是微软研发的公有云计算平台.该平台可供企业在互联网上运行应用,并可进行扩展.通过Windows Azure,企业能够在多个数据中心 ...

  8. 完整部署CentOS7.2+OpenStack+kvm 云平台环境(1)--基础环境搭建

    公司在IDC机房有两台很高配置的服务器,计划在上面部署openstack云平台虚拟化环境,用于承载后期开发测试和其他的一些对内业务.以下对openstack的部署过程及其使用做一详细介绍,仅仅依据本人 ...

  9. #AzureChat - 自动伸缩和虚拟机

    我们很高兴地推出再一次 #AzureChat,这是 @WindowsAzure 团队为您精心打造的一个在 Twitter 上进行的聊天活动! #AzureChat 专注于云计算的各个方面以及云开发的最 ...

随机推荐

  1. javaFx 学习笔记

    1.每个javaFx程序定义在一个继承自javafx.application.Application的类中 Button:用于设置一个按钮,Button btOK = new Button(" ...

  2. Hadoop调度框架

        大数据协作框架是一个桐城,就是Hadoop2生态系统中几个辅助的Hadoop2.x框架.主要如下: 1,数据转换工具Sqoop 2,文件搜集框架Flume 3,任务调度框架Oozie 4,大数 ...

  3. AJPFX总结String类的特点

          String str = "abc"; str就是String的一个对象         字符串一旦被赋值, 值就不能再被改变了         举例:String s ...

  4. SQL Server 2008还原数据库的具体方法

    俗话说“好记性不如烂笔头”,在相隔较长的时间段内,每次还原客户的数据库都记不清完全的步骤,为此mark一下. SQL Server 2008一般默认备份的文件格式是bak,即后缀名为.bak.bak文 ...

  5. NSString 与NSMutableString的区别

      NSString 与NSMutableString的区别    Suppose You have a code like this NSString *s = [[NSString alloc]  ...

  6. python中的seteuid

    seteuid(...)    seteuid(uid)        Set the current process's effective user id.

  7. windows 下防火墙安全加固,配置规则

    netsh advfirewall firewall: 显示关于防火墙操作的常见命令的帮助信息 netsh advfirewall firewall show rule name=all dir=in ...

  8. help命令

    help——获得Shell内置命令的帮助信息 命令所在路径:Shell内置命令 示例1: # help cd 使用which或者whereis查找不到路径的命令一般是Shell内置命令,cd就是一个S ...

  9. [Python學習筆記] 使用 selenium 抓取網頁並且雙擊滑鼠 (double click)

    一開始使用的時候 看官方文件 以為使用 double_click()即可 但後來出現錯誤 AttributeError: 'WebElement' object has no attribute 'd ...

  10. JVM_Bind问题的解决方案

    心得:删除javaw.exe进程即可. 以下是网络的解决方案: JVM_Bind问题出现通常有两种情况. 一种是原来的javaw.exe没有结束掉而又新创建了一个javaw.exe进程.这本无可厚非, ...