作者 郭云龙,腾讯云高级工程师,目前就职于 CSIG 云产品三部-AI 应用产品中心,现负责中心后台业务框架开发. 导语 为了满足 AI 能力在公有云 SaaS 场景下,服务和模型需要快速迭代交付的需求,保障服务在不稳定高并发时的高成功率,以及进一步提升资源利用率,AI 应用产品中心进行了一系列的调研与实践,本篇将重点介绍团队在容器化方面的实践经验. 背景和问题 公有云 AI SaaS 产品(如人脸融合)的一般服务流程为:C 端或 B 端客户通过采集设备采集图像.音视频等,经由云 API 等接入…
作者:詹雪娇,腾讯云容器产品经理,目前主要负责腾讯云集群运维中心的产品工作. 张鹏,腾讯云容器产品工程师,拥有多年云原生项目开发落地经验.目前主要负责腾讯云TKE集群和运维中心开发工作. 引言 降本增效从云计算发展至今一直都是企业上云最核心的关注点,无论是在线业务还是大数据.AI业务,都非常依赖算力的消耗,成本问题都是企业上云进行决策的核心因素. 从云计算本身来看,单纯把业务从 IDC 搬迁上云不修改任何业务架构,提高计算资源利用率需要非常大的运维成本和人力成本投入到改造业务适配弹性伸缩和业务可…
作者 吕亚霖,作业帮基础架构 - 架构研发团队负责人.负责技术中台和基础架构工作.在作业帮期间主导了云原生架构演进.推动实施容器化改造.服务治理.GO 微服务框架.DevOps 的落地实践. 别路,作业帮基础架构-高级研发工程师,在作业帮期间,负责多云 K8s 集群建设.K8s 组件研发.Linux 内核优化调优相关工作. 背景 作业帮在云原生容器化改造的过程中,随着集群规模越来越大.业务混合部署的场景越来越复杂,面临的集群问题也越来越多,走到了 Kubernetes 及容器化的深水区, 尤其是…
背景 公有云的发展为业务的稳定性.可拓展性.便利性带来了极大帮助.这种用租代替买.并且提供完善的技术支持和保障的服务,理应为业务带来降本增效的效果.但实际上业务上云并不意味着成本一定较少,还需适配云上业务的应用开发.架构设计.管理运维.合理使用等多方面解决方案,才能真正助力业务的降本增效.在<Kubernetes 降本增效标准指南>系列 的上一篇文章<容器化计算资源利用率现象剖析>中可看到,IDC 上云后资源利用率提高有限,即使已经容器化,节点的平均利用率依旧仅在 13% 左右,资…
作者 王孝威,FinOps 认证从业者,腾讯云容器服务产品经理,热衷于为客户提供高效的 Kubernetes 使用方式,为客户极致降本增效服务. 余宇飞,FinOps 认证从业者,腾讯云专家工程师,从事云原生可观测性.资源管理.降本增效产品的开发. 资源利用率为何都如此之低? 虽然 Kubernetes 可以有效的提升业务编排能力和资源利用率,但如果没有额外的能力支撑,提升的能力十分有限,根据 TKE 团队之前统计的数据: Kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析,…
上一篇,我们介绍了如何使用Elastic Job实现定时任务.解决了使用@Scheduled来实现时候存在的竞争问题,同时也实现了定时任务的高可用执行. 然而,还有一类问题是我们在做定时任务时候容易出现的,就是任务执行速度时间过长:同时,为了实现定时任务的高可用,还启动了很多任务实例,但每个任务执行时候就一个实例在跑,资源利用率不高. 所以,接下来我们就来继续介绍,使用Elastic Job的分片配置,来为任务执行加加速,资源利用抬抬高的目标! 动手试试 建议直接下载文末仓库中的chapter7…
在容器化的应用场景中,大数据计算是其中很大并且业务应用在逐渐增加的一个热门领域,包括越来越多的人工智能企业,都在使用容器技术来支持业务中的大量计算任务.降低成本.提升资源利用率也是当前这部分用户非常期待而又迫切的需求. 那么,容器的 Serverless 化的出现,可以很大程度上帮助大数据计算需求的用户迅速解决这些问题.为此,腾讯云推出了弹性容器 EKS 的解决方案,甚至可以达成离线计算业务的成本降低 65%. 腾讯云弹性容器服务 EKS(Elastic Kubernetes Service),…
阿里妹导读:为了保证系统的在线交易服务顺利运转,最初几年,阿里都是在双11大促来临之前大量采购机器储备计算资源,导致了双11之后资源大量闲置点现象.是否能把计算任务与在线服务进行混合部署,在现有弹性资源基础上提升集群资源利用率,降低双11资源新增成本? 今天,阿里测试开发专家何颖,将为你深入介绍阿里容器调度系统Sigma仿真平台Cerebro. Sigma 是阿⾥巴巴全集团范围的 Pouch 容器调度系统.2017年是 Sigma 正式上线以来第⼀次参与双11,在双11期间成功⽀撑了全集团所有容…
Jupyter Notebooks 在 Kubernetes 上部署往往需要绑定一张 GPU,而大多数时候 GPU 并没有被使用,因此利用率低下.为了解决这一问题,我们开源了 elastic-jupyter-operator,将占用 GPU 的 Kernel 组件单独部署,在长期空闲的情况下自动回收,释放占用的 GPU.这篇文章主要介绍了这一开源项目的使用方式以及工作原理. Jupyter Notebooks 是目前应用最为广泛的交互式开发环境,它很好地满足了数据科学.深度学习模型构建等场景的代…
Hadoop系统提供了MapReduce计算框架的开源实现,像Yahoo!.Facebook.淘宝.中移动.百度.腾讯等公司都在借助 Hadoop进行海量数据处理.Hadoop系统性能不仅取决于任务调度器的分配策略,还受到分配后实际任务执行效率的影响,任务执行常常涉及读取.排序.归并.压缩.写入等具体阶段. HCE计算框架是一个开源项目,旨在通过优化任务执行的各个阶段,提升整个Hadoop系统的效率.与Hadoop Java框架相比,基于HCE框架的MapReduce任务最高可以节省超过30%的…