简介:目前方案已经成熟,高峰期已有近万核规模的核心链路在线业务运行在基于阿里云 ACK+ECI 的 Kubernetes Serverless 虚拟节点。随着业务的放量,未来运行在 Serverless 虚拟节点上的服务规模会进一步扩大,将节省大量的资源成本。

背景

作业帮的服务端技术体系正向着云原生化发展,提升资源利用率是云原生技术栈的核心目标之一,资源利用率的提升意味着以更少的计算节点用承载更多的应用实例,极大的降低资源开销。而 Serverless 具有弹性伸缩、强隔离性、按量计费、运维自动化等特点,带来了降低交付时间、降低风险、降低基础设施成本、降低人力成本等核心优势。Serverless 化一直是作业帮基础架构探索的核心方向。Serverless 化长期来看有两种方案,一种是函数计算,一种是 Kubernetes Serverless 虚拟节点。Kubernetes Serverless 虚拟节点对已经运行在 Kubernetes 上的服务无实际使用差异,用户体验较好,业务服务使用无感知,可以由基础架构进行调度迁移,阿里云 ECI 就是一种典型 Kubernetes 虚拟节点方案。

所以在 2020 年,我们就开始尝试将部分密集计算调度到 Serverless 虚拟节点上,用 Serverless 虚拟节点底层服务器的强隔离能力来规避服务间相互影响;2021 年,我们就将定时任务调度到 Serverless 虚拟节点,替代节点扩缩容,应对短期运行任务,提升资源利用率降低成本;2022 年,我们开始将核心在线业务调度到 Serverless 虚拟节点,而在线业务是最敏感、用户易感知的。同时在线业务有着明显的波峰和波谷,在高峰期弹性调度到 Serverless 虚拟节点将带来巨大的成本收益,随之而来的要求也越高,尽可能保证在线业务在性能、稳定性上和物理服务器效果一致,业务观测感知上一致,也就是让上层业务服务感知不到 Serverless 虚拟节点和物理服务器之间的差异。

Kubernetes Serverless 虚拟节点

虚拟节点并不是真实的节点,而是一种调度能力,支持将标准 Kubernetes 集群中的 pod 调度到集群服务器节点之外的资源中。部署在虚拟节点上的 pod 具备裸金属服务器一致的安全隔离性、网络隔离性、网络连通性,又具有无需预留资源,按量计费的特性。

Kubernetes Serverless 虚拟节点 成本优势

作业帮的大部分服务都已经完成容器化,在线业务有着典型的高峰期,且高峰期持续时间较短(4 个小时/每天),全部使用裸金属服务器,高峰期服务器平均负载接近 60%,而低峰期负载只有 10% 左右。此场景就非常适合 Serverless 的弹性伸缩落地,可以做一个简单的计算:假设全部使用自有服务器每小时的成本为 C,平均每天高峰期的时间为 4 小时,使用 Serverless 的单位时间成本为 1.5C,那么:

  • 全部使用自有服务器的总成本为 C * 24 = 24C
  • 保留 70% 的自有服务器,高峰期增加 30% 的 Serverless 来应对,此时的总成为:C * 24 * 0.7 + 1.5C * 4 * 0.3 = 18.6C

理论上高峰期波峰部分使用 Serverless 可降低的成本为:(24C - 18.6C) / 24C = 22.5%, 可见,将在线服务高峰期弹性调度到 Serverless 可以节省大量的资源成本。

问题和解决方案

虽然 Kubernetes Serverless 虚拟节点拥有诸多优点,但也仍存在一些问题,目前主要遇到以下一些问题:

调度和管控问题

调度层面主要解决两个问题:一是扩容时创建 pod 基于何种调度策略调度到虚拟节点,二是缩容时应优先缩虚拟节点上的 pod。这两种能力在我们当前使用的 Kubernetes 版本中能力是不足的。

扩容/缩容调度策略

扩容调度策略应该由基础架构和运维来统一把控,与业务关联度不大,因为业务方不知道底层资源层还有多少服务器计算资源可以被利用。我们理想情况下,是希望当本集群池内,物理服务器资源达到利用率瓶颈后,扩容到 Serverless 虚拟节点上。这样就可以即没有容量风险也可以获得成本优势。

业界使用虚拟节点的演进过程:

1.  虚拟节点和标准节点是完全分开的,只能调度到指定的池子。

2. 用户不用指定 selector,当 pod 因固定节点资源不足调度 pending 的时候,会自动调度到虚拟节点上,该过程会有延迟。

3. 云厂商比如(阿里云 ACK Pro)的调度器会当资源不足时自动调度到虚拟节点上,这个过程自动且无延迟,相对比较理想。

但我们的业务场景需要更精细化的资源管理策略,需要我们更紧密结合资源管理述求的调度策略,所以我们基于阿里云 ACK 的能力之上研发了我们自己的方案:

扩容:基于在线服务的波峰波谷,进行预测推荐调度,预测高峰该服务能在集群物理机上运行的副本数阈值,通过自研调度器将超过阈值的 pod 调度到虚拟节点上。该阈值数据即集群物理机上运行副本的最优解,既能满足物理机集群的利用率也能满足性能要求。阈值太低则物理机资源浪费,阈值太高则物理机部署密度太高,资源利用率过高,影响业务。

缩容:缩容时优先缩 Serverless 虚拟节点上的 pod 很好理解,因为常备的资源池是包年包月的单价更低,虚拟节点上的资源是按量计费的单价较高,优先缩虚拟节点上的 pod 来达到成本最优;我们通过自研调度器对虚拟节点上的 pod 注入自定义的注解,修改 kube-controller-manager 的缩容逻辑,将带有虚拟节点自定义注解的 pod 置于缩容队列的顶部,来完成优先缩容虚拟节点上的 pod。

在管控面 DevOps 平台除了支持自动计算调度到虚拟节点的阈值,还支持手动设置以便于业务进行更精细的调控。调度到虚拟节点的能力可以结合 hpa、cron-hpa 同时使用,来满足业务更灵活的需求。管控面还支持故障场景下一键封锁虚拟节点,以及应对更极端情况(如机房整体故障)的多云调度能力。

观测性问题

我们的观测服务都是自建,比如(日志检索、监控报警、分布式追踪)。因为是虚拟节点,pod 里跑的监控组件,日志采集,是由云厂商内置的。我们需要保证业务感知层面上,pod 运行在 Serverless 虚拟节点和物理服务器上一致,所有就有一个转化到我们自有观测服务的一个过程。

监控:在监控方面,云厂商虚拟节点完全兼容 kubelet 监控接口,可以无缝接入 Prometheus。完成 pod 实时 CPU/内存/磁盘/网络流量等监控,做到了和普通节点上的 pod 一致。

日志:在日志采集方面,通过 CRD 配置日志采集,将日志发送到统一的 Kafka。通过我们自研了日志消费服务,消费各云厂商和自有节点上的日志。

分布式追踪:在分布式追踪方面,由于无法部署 daemonset 形式的 jeager agent,我们 jeager client 端做了改造,通过环境变量识别 pod 运行的环境,如果是在虚拟节点上则跳过 jeager agent,直接将分布式追踪的数据推送到 jeager colletror。

性能、稳定性及其他问题

Serverless 虚拟节点底层性能差异:由于底层计算资源规格的不同以及虚拟化层带来的开销,性能可能和裸金属服务器有所差异,这就需要对时延非常敏感的业务,在上虚拟节点之前进行充分的测试和评估。

云服务器库存风险:高峰期大量扩容,如果云厂商某个规格的的资源池水位低,可能会扩不出来指定规格的资源。这里我们是开启自动升配,也就是申请 2c2G,理论上应该匹配 2c2G 的 ECI,如果没有库存,会匹配到 2c4G 的 ECI。以此类推。

问题定位排查:因为虚拟节点本质上使用的是云厂商资源池,不在我们自身的管控范围内,当业务出现异常时虽然可以自动摘流,但无法登陆到机器排查问题,比如像查看系统日志、取回 core dump 文件等操作就比较困难。在我们的建议下,云服务(阿里云 ECI)已经支持将 core dump 自动上传到 oss了。

规模和收益

目前方案已经成熟,高峰期已有近万核规模的核心链路在线业务运行在基于阿里云 ACK+ECI 的 Kubernetes Serverless 虚拟节点。随着业务的放量,未来运行在 Serverless 虚拟节点上的服务规模会进一步扩大,将节省大量的资源成本。

原文链接

本文为阿里云原创内容,未经允许不得转载。

作业帮在线业务 Kubernetes Serverless 虚拟节点大规模应用实践的更多相关文章

  1. TKE用户故事 | 作业帮检索服务基于Fluid的计算存储分离实践

    作者 吕亚霖,2019年加入作业帮,作业帮基础架构-架构研发团队负责人,在作业帮期间主导了云原生架构演进.推动实施容器化改造.服务治理.GO微服务框架.DevOps的落地实践. 张浩然,2019年加入 ...

  2. 作业帮上万个 CronJob 和在线业务混部,如何解决弱隔离问题并进一步提升资源利用率?

    作者 吕亚霖,作业帮基础架构 - 架构研发团队负责人.负责技术中台和基础架构工作.在作业帮期间主导了云原生架构演进.推动实施容器化改造.服务治理.GO 微服务框架.DevOps 的落地实践. 别路,作 ...

  3. 虚拟节点轻松应对 LOL S11 百万并发流量——腾竞体育的弹性容器实践

    作者 刘如梦,腾竞体育研发工程师,擅长高并发.微服务治理.DevOps,主要负责电竞服务平台架构设计和基础设施建设. 詹雪娇,腾讯云弹性容器服务EKS产品经理,主要负责 EKS 虚拟节点.容器实例相关 ...

  4. TKE 用户故事 | 作业帮 Kubernetes 原生调度器优化实践

    作者 吕亚霖,2019年加入作业帮,作业帮架构研发负责人,在作业帮期间主导了云原生架构演进.推动实施容器化改造.服务治理.GO微服务框架.DevOps的落地实践. 简介 调度系统的本质是为计算服务/任 ...

  5. ACK容器服务虚拟节点使用阿里云日志服务来收集业务容器日志

    按照这篇博文的介绍,可以在ACK集群上通过Helm的方式部署虚拟节点,提升集群的弹性能力.现在,通过虚拟节点部署的ECI弹性容器实例也支持将stdout输出.日志文件同步到阿里云日志服务(SLS)进行 ...

  6. 腾讯云联合中国信通院&作业帮等首发《降本之源-云原生成本管理白皮书》

    在11月4日举办的2021腾讯数字生态大会云原生专场上,腾讯云联合中国信通院.作业帮等率先在国内重磅发布了<降本之源-云原生成本管理白皮书>(简称白皮书),基于腾讯云在业内最大规模的 Ku ...

  7. 从零入门 Serverless | 在线应用的 Serverless 实践

    作者 | 唐慧芬(黛忻) 阿里云产品专家 导读:毫无疑问,Serverless 能够在效率和成本上给用户带来巨大收益.那具体到落地又应该怎么做呢?本文就给大家详细解读 Serverless 的落地实践 ...

  8. STORM在线业务实践-集群空闲CPU飙高问题排查

    源:http://daiwa.ninja/index.php/2015/07/18/storm-cpu-overload/ 2015-07-18AUTHORDAIWA STORM在线业务实践-集群空闲 ...

  9. STORM在线业务实践-集群空闲CPU飙高问题排查(转)

    最近将公司的在线业务迁移到Storm集群上,上线后遇到低峰期CPU耗费严重的情况.在解决问题的过程中深入了解了storm的内部实现原理,并且解决了一个storm0.9-0.10版本一直存在的严重bug ...

  10. ACK容器服务发布virtual node addon,快速部署虚拟节点提升集群弹性能力

    在上一篇博文中(https://yq.aliyun.com/articles/647119),我们展示了如何手动执行yaml文件给Kubernetes集群添加虚拟节点,然而,手动执行的方式用户体验并不 ...

随机推荐

  1. vue入门教程之-属性、事件和双向绑定

    vue入门教程之-属性.事件和双向绑定 欢迎关注博主公众号「java大师」, 专注于分享Java领域干货文章, 关注回复「资源」, 免费领取全网最热的Java架构师学习PDF, 转载请注明出处 htt ...

  2. Winform DataGridView 添加复选框列

    1.编辑DataGridView的属性: 2.定义列的类型为chekcBox: 3.点击添加: 4.效果: 5.编辑:

  3. 逆向通达信Level-2 续九 (无帐号打开itrend研究版)

    此itrend研究版的版本比较旧. 本篇演示三图,用例进程同为0x4970. 1. itrend不支持脱机,游客登陆.没有帐号不能打开.现在以无帐号打开. 2. itrend支持高清,当打开主界面就会 ...

  4. 使用maven和gradle命令打jar包

    参考:https://blog.csdn.net/qq_27525611/article/details/123487255 https://blog.csdn.net/qq_35860138/art ...

  5. auto推导类型注意

    auto推导类型忽略顶层const,不忽略底层const. 顶层const:指针或引用本身是const不可变,也就是指针指向的内存地址不可变,但指向的内存内容可变. 底层const:指针指向的内存地址 ...

  6. Android 开发day1

    下载了安卓开发软件 Android studio 下载过程中遇到了,C盘默认安装路径不匹配问题,因为我的系统文件是中文的,软件是国外的软件,导致了他不让我安装,我还是最后在C盘创建了一个文件后,直接安 ...

  7. MySQL(单表查询、多表查询、Navicat软件使用、查询练习、pymysql模块)

    一 单表操作 表准备和注意事项 create table employee( id int not null unique auto_increment, name varchar(20) not n ...

  8. 基于QGIS生产建筑物高度与遥感影像数据集

    1. 概述 利用遥感影像推知建筑物高度是一经典研究,现有很多学者利用机器学习的方式,利用现有数据进行训练从而构建模型 本文旨在记述使用QGIS进行建筑物高度与遥感影像数据集的获取与制作 如果不想自己动 ...

  9. 「AntV」全球AQI数据获取与L7可视化

    1. 引言 L7 地理空间数据可视分析引擎是一种基于 WebGL 技术的地理空间数据可视化引擎,可以用于实现各种地理空间数据可视化应用.L7 引擎支持多种数据源和数据格式,包括 GeoJSON.CSV ...

  10. Vue中组件和插件有什么区别?

    这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 一.组件是什么 回顾以前对组件的定义: 组件就是把图形.非图形的各种逻辑均抽象为一个统一的概念(组件)来实现开发的模式,在Vue中每一个. ...