近日,阿里云技术专家徐若晨在全球分布式云大会上,分享了《边缘容器云助力AI推理高效落地》的主题演讲,分享了阿里云边缘容器云如何助力开发者实现更快速的AI推理应用的迭代和部署。此外,他还分享了边缘AI推理应用在实际业务中的应用案例。

 

终端算力上移 云端算力下沉

客户在边缘部署时面对的挑战包括:首先,构建自有边缘机房的时间周期长,资本成本高,且常常需要处理设备的迁移与淘汰,这使得相对于传统数据中心,边缘机房的服务水平协议(SLA)表现较为逊色。其次,由于边缘环境受到物理条件的限制,单个集群的规模往往较小,最多包含几十到几百台服务器,导致业务的扩展性不够强。尽管如此,由于需要部署较多这样的小规模集群,并且它们通常具有明显的地域特性,因此这大大增加了集群维护的成本和复杂度。

 

边缘云给客户带来的价值有这些:首先是提升了交付效率,做到秒级算力交付;其次是降低了成本,可以按量付费,弹性扩容;另外可运维性也有较大的提升。其实本质上来说,这几方面,都是上云带来的价值。那么边缘云由于其广覆盖,低延迟的特点,可以使终端用户获得时延更低的算力资源,从而提升终端用户的体验。一方面,通过终端计算的上移,去获得更多的算力,提升业务的灵活性。另一方面通过云端算力的下沉,来降低成本、缩短时延、提升用户体验。

云—边—端模式的优势

对比中心Region来看,边缘云实际是一个云端算力下沉的过程。将更多的服务放在边缘上运行。分布式部署,来应对高并发场景,卸载中心服务器的负荷。流量在边缘云这一层进行收敛,可以有效的降低中心Region的带宽,从而降低成本。边缘云本身的特点是离用户更近,时延更低,更加适合一些交互性更强的业务。

对比终端程序来看,边缘云实际是一个终端算力上移的过程。将更多的终端服务跑在边缘上,实现终端瘦身。在这个过程中,开发者可以获得更加标准化的运维方式,做到云边一致的体验,使得应用程序可以更高速的迭代,减少终端发版。边缘上丰富的生态及常用的中间件,可以使应用程序的实现更加灵活。

此外还可以提供专属的ARM阵列、 GPU硬件等异构资源,使得应用程序的性能可以进一步提升。例如当前所说的AI推理等应用,它就需要GPU硬件资源,跑在终端上的可能就比较小。

边缘容器云技术架构帮助AI推理应用高效开发和部署

从下往上看,最下面这一层是资源建设和运维的平台,主要作用是将各种物理资源通过统一的模型纳管到系统中来,通过这一层去向上提供统一的界面。另外一些基础资源的运维也是在这里。

往上是异构资源纳管,简单来说就是要将各种资源接入k8s集群中去,无论是ARM阵列,带有GPU的服务器等,在K8s中都体现为一个Node。

由于前面提到的边缘资源的规模很大,在一个K8s集群中无法容纳,所以再往上是集群的管理和融合调度,它对上提供的是一个标准化的k8s界面。使用户可以通过一个K8s集群,将应用部署到所有的边缘节点中,而不需要考虑太多分布式的逻辑,是保持云边一致体验的重要组成部分。

再往上是边缘特性的增强,边缘就要有边缘的特点,突出边缘的优势。结合边缘云的特性,我们做了域名服务导出,边缘数据集分发,镜像加速,工作负载增强,以及超大规模的服务网格,让用户可以更方便的使用边缘的能力。

这些能力可以以K8s的形式使用,也可以通过我们应用管理功能来整合使用,用户可以自主选择。一般来说,如果用户有自建的发布管控系统,可能对接我们的k8s界面比较多。如果用户更多的注重于应用开发,暂无精力投入建设自己的发布管控系统,直接用我们的应用中心的能力也是可以的。

最上面是能力开放层,本质是期望用户、开发者,能基于下层提供的能力,通过适合自己的方法,把业务跑起来。助力AI推理应用的高效开发、部署,发挥边缘计算的价值,就会重点用到上面介绍的这几层能力。

 

边缘数据集让应用开发者高效使用模型和数据

通常一个AI推理应用,它是需要一个模型文件的,这个模型文件有不同大小,需要在推理应用的进程中读取模型。可以说,模型文件是AI推理应用必不可少的部分。针对这一特点,我们设计了边缘数据集分发功能。提前传到我们的边缘协同存储EOS或者是中心对象存储OSS上的模型,可以通过简单的来源配置,制作成我们定义的边缘数据集。它可以随你的容器分发到不同的边缘节点,依托阿里云边缘云团队长期技术积累和资源优势,让数据集可以做到高效、安全、迅速的分发。通过边缘数据集分发能力,AI推理应用的开发者,可以便捷的在自己的程序中读取、使用模型和数据,更加专注于应用的开发,提升效率。

 

开发者只需关注一个租户集群即可实现全域算力管理

通过前面提到的多集群管理、融合调度、异构资源管理,我们为用户提供多租的虚拟K8s集群。在租户K8s这个层面上,他是多租并且是硬隔离的,不会因为其他用户的异常操作而影响到你。一般为了管理不同地域的资源,通常需要使用多个K8s集群,但是在我们这个架构下,开发者只需要关注一个租户集群,把自己的Pod创建在自己的租户集群中,我们的融合调度和多集群同步功能就会将Pod同步分发到众多的边缘节点。开发者不需要投入过多的精力去关注多集群管理,集群规划等细节,这些我们替他搞定。

此外,我们还支持用户定义的资源使用策略,不管是关注时延,还是关注成本,都可以自己定义。通过全域算力覆盖的能力,我们希望能让开发者体验到云边体验的一致,可以更聚焦于自己的应用业务逻辑。

 

边缘镜像服务提高开发者部署应用的效率

部署的过程中,会涉及到镜像使用,接下来介绍边缘镜像加速能力首先我们的边缘镜像仓库和应用中心的账号体系是打通的,也就是说在应用中指定了边缘镜像地址之后,无需单独维护用户名密码的配置,我们会自动在应用中注入,开发者以外的人看到的还是一个私有镜像仓库,开发者感受到的是一个免密拉取的仓库。

其次依托边缘云在文件分发场景的长期积累和沉淀,我们构建了镜像快速分发到边缘的能力,以及镜像的主动预热能力,以支撑超大流量规模的并发,为扩容提速。

此外,我们的镜像仓库还支持与各类DevOps流水线集成,优化开发者使用体验。还是那句话,我们期望开发者把应用部署到边缘,去获取云边端架构带来的收益,同时减少因为应用部署位置差异带来的负担。

 

域名导出服务方便开发者进行简单部署提高应用访问体验

应用部署完成之后,接下来需要考虑应用如何提供给终端用户访间,基于这样的诉求,我来介绍一下我们的域名服务导出能力。

用户部署完应用之后,他需要创建一个4/7层负载均衡,以对外提供服务,然后要拿着这个负载均衡的公网地址,去自己的DNS服务上加一条配置。然后还需要描述下哪些区域的终端用户去访问哪些服务器地址。如果一个地区有多个节点或者服务,还得想办法描述这个IP的能力权重,比如有的ip后面服务能力强,有的IP后面服务能力不强。这些操作对 CDN的专家来说,那是轻车熟路。但是这对于一个AI推理应用的开发者来说,就稍微有点门槛,要关心的东西太多了。

而现在,直接使用我们现在的域名服务导出能力,只要把域名权威托管或者CNAME解析过来,我们就可以联动部署去给你自动做就近解析。因为你是通过边缘容器云部署的,IP有哪些,我们可以直接给你添加到边缘云的解析服务中;ip的运营商属性是什么,我们可以直接给你添加到边缘云的解析服务中;IP的能力是多少,能跑多少QPS,我们可以基于后面的副本数转换,权重信息可以给到边缘云的解析服务中;服务的能力跑高了,负载均衡的监控数据我们也对接到边缘云的解析服务中,他可以自动做切量和水位控制。

不需要关注过多细节,只需要很简单的几步,你就可以具备一个全网覆盖的,可以就近访问的AI推理应用。开发者关心的东西少了,创新的热情才会进一步进发,促进AI生态的繁荣。

 

业务数据可观测,自定义弹性扩缩容

应用跑起来了,运行过程中,开发者会需要关注考虑自身业务的观测数据,比如业务的QOS的统计,任务的处理数量等,所以这里我也介绍一下我们可观测和弹性伸缩能力。

对接开源的标准,我们支持Prometheus格式的metrics采集,并且支持自定义给你投递到对应的服务器上。比如你可以阿里云控制台开一个Prometheus实例,然后把地址配置到我们这,我们就可以给你把数据投递过去,当然开发者自建的Prometheus服务地址也是可以的,这个没有限制。然后可以在我们这定义一些弹性伸缩的规则,比如最少多少个副本,最多多少个副本,什么指标到达什么水位的时候扩容,什么指标低至什么水位的时候缩容,可以是你自定义的指标采集,也可以是我们内置的基础指标例如CPU、内存、GPU利用率等。

 

边缘容器云助力边缘AI推理的业务实践

开发者通过我们的边缘应用管理,可以便捷的使用到这些能力。上面提到的边缘数据集分发、全域算力覆盖、边缘镜像加速、服务域名导出、可观测和弹性伸缩,构成了边缘容器云支撑AI推理应用高效落地的一个最佳实践,可以极大的降低了AI推理应用在边缘落地的门槛。

让我们来看一个实际运行在我们边缘容器云平台上的业务案例。这是一个手机应用内机器人,它允许用户通过多轮的对话交互来在边缘执行推理任务,最终生成操作意图。这个意图随后被上传到中心服务器,以执行全局业务查询逻辑,紧接着操作将被下发至用户终端执行具体任务,如帮助用户完成特定动作,并将结果展现给用户。在这个业务案例的实施过程中,我们关键地利用了先前提及的域名服务导出的就近服务功能、边缘数据集分发、以及边缘镜像加速等核心能力。

 

我们的目的是简化 AI 推理应用在边缘的部署过程,以促进边缘计算与 AI 技术生态系统的共同繁荣。我们提供的解决方案能够让开发者能够迅速而轻松地上线他们的应用。想象一下,不久的将来,仅需一声指令,开发者助手机器人便可帮你将应用顺利部署至边缘容器云平台。

阿里云边缘容器云帮助AI推理应用快速落地的更多相关文章

  1. 阿里云 CDN 业务基于边缘容器的云原生转型实践

    导读:本文基于边缘容器的阿里云 CDN 云原生实践, 涵盖了边缘容器的背景和趋势,边缘托管集群 ACK Managed Edge K8s(文中简称“Edge@ACK”) 的能力.架构,以及基于边缘容器 ...

  2. 荣获“5G MEC优秀商用案例奖”,阿里云边缘计算发力新零售

    4月24日,在中国联通合作伙伴大会的 “5G MEC(Mobile Edge Computing,移动边缘计算)边缘云赋能行业数字化转型”分论坛上,阿里云“基于5G边缘计算的新零售应用案例”荣获201 ...

  3. 阿里云如何基于标准 K8s 打造边缘计算云原生基础设施

    作者 | 黄玉奇(徙远)  阿里巴巴高级技术专家 关注"阿里巴巴云原生"公众号,回复关键词 1219 即可下载本文 PPT 及实操演示视频. 导读:伴随 5G.IoT 的发展,边缘 ...

  4. 最佳案例 | 游戏知几 AI 助手的云原生容器化之路

    作者 张路,运营开发专家工程师,现负责游戏知几 AI 助手后台架构设计和优化工作. 游戏知几 随着业务不断的拓展,游戏知几AI智能问答机器人业务已经覆盖了自研游戏.二方.海外的多款游戏.游戏知几研发团 ...

  5. 云计算之路-阿里云上-容器难容:自建docker swarm集群遭遇无法解决的问题

    我们从今年6月开始在生产环境进行 docker 容器化部署,将已经迁移至 ASP.NET Core 的站点部署到 docker swarm 集群上.开始我们选用的阿里云容器服务,但是在使用过程中我们遭 ...

  6. 云计算之路-阿里云上-容器难容:容器服务故障以及自建 docker swarm 集群故障

    3月21日,由于使用阿里云服务器自建 docker swarm 集群的不稳定,我们将自建 docker swarm 集群上的所有应用切换阿里云容器服务 swarm 版(非swarm mode). 3月 ...

  7. 阿里云弹性容器实例产品 ECI ——云原生时代的基础设施

    阿里云弹性容器实例产品 ECI ——云原生时代的基础设施 1. 什么是 ECI 弹性容器实例 ECI (Elastic Container Instance) 是阿里云在云原生时代为用户提供的基础计算 ...

  8. 腾讯云联合多家生态伙伴,重磅开源 SuperEdge 边缘容器项目

    在2020年12月19-20日腾讯 Techo Park 开发者大会上,腾讯云联合英特尔.VMware 威睿.虎牙.寒武纪.美团.首都在线,共同发布 SuperEdge 边缘容器开源项目. Super ...

  9. 成本降低40%、资源利用率提高20%的 AI 应用产品云原生容器化之路

    作者 郭云龙,腾讯云高级工程师,目前就职于 CSIG 云产品三部-AI 应用产品中心,现负责中心后台业务框架开发. 导语 为了满足 AI 能力在公有云 SaaS 场景下,服务和模型需要快速迭代交付的需 ...

  10. 云栖大会压轴好戏 阿里云发布视频云V5计划与系列新产品

    9月25 - 27日,2019云栖大会如期召开.在大会最后一天下午,阿里云智能视频云分论坛为今年的云栖大会献上了一场精彩的压轴好戏. 视频云V5计划发布 使能生态合作伙伴 会上,阿里云智能研究员金戈进 ...

随机推荐

  1. hdfs disk balancer 磁盘均衡器

    目录 1.背景 2.hdfs balancer和 hdfs disk balancer有何不同? 3.操作 3.1 生成计划 3.2 执行计划 3.3 查询计划 3.4 取消计划 4.和disk ba ...

  2. python opencv DNN 人脸检测

    import cv2 modelFile = "res10_300x300_ssd_iter_140000_fp16.caffemodel" configFile = " ...

  3. 算法学习笔记【8】| 单调队列优化DP

    单调队列:就是滑动窗口,可以求出定长 RMQ,时间复杂度线性. 优化 DP 首先把dp方程写成这个样子: 或者其他运算f[i]=max(或者其他运算){f[j]+calc(i,j)}<scrip ...

  4. 开始学习web-sql注入

    web内容多且杂,不知道怎么下手开始学,那就先从sql注入开始学吧 目前只在b站上找了一些课程,还有ctfwiki作为参考 链接贴在下面: ctfwiki https://www.bilibili.c ...

  5. openGauss数据与PostgreSQL的差异对比

    openGauss 数据与 PostgreSQL 的差异对比 前言 openGauss 数据库已经发布 2.0.1 版本了,中启乘数科技是一家专业的专注于极致性能的数据库服务提供商,所以也关注 ope ...

  6. jenkins 持续集成和交付——maven小栗子(四)

    前言 因为前面一节中介绍了自由风格模式,这里介绍一个专门为maven打造的模式,没错就是使用插件.这里写这个只是为了说明,如果我们构建一些不是那么复杂的项目,那么可以去使用一些插件,这样可以更加方便, ...

  7. 实训篇-JavaScript-打地鼠

    <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title> ...

  8. Cache Aside Pattern缓存+数据库读写模式的分析

    1.Cache Aside Pattern(1)读的时候,先读缓存,缓存没有的话,那么就读数据库,然后取出数据后放入缓存,同时返回响应 (2)更新的时候,先删除缓存,然后再更新数据库 2.为什么是删除 ...

  9. vue3.0 中文文档(暂时)地址

    https://v3.cn.vuejs.org/ https://vue-docs-next-zh-cn.netlify.app/guide/installation.html#vue-devtool ...

  10. ES6中对象新增了哪些扩展?

    一.属性的简写 ES6中,当对象键名与对应值名相等的时候,可以进行简写 const baz = {foo:foo}// 等同于const baz = {foo} 方法也能够进行简写 const o = ...