Volcano 社区 v1.7.0 版本正式发布 | 云原生批量计算
摘要:北京时间2023年1月9日,Volcano社区v1.7.0版本正式发布。
本文分享自华为云社区《Volcano 社区 v1.7.0 版本正式发布 | 云原生批量计算》,作者:华为云云原生团队 。
北京时间2023年1月9日,Volcano社区v1.7.0版本正式发布。此次版本增加了以下新特性:
- Pytorch Job插件功能强化
- Ray on Volcano
- 增强Volcano对Kubernetes通用服务的调度能力
- 支持Volcano的多架构镜像
- 优化队列状态信息等
Volcano是业界首个云原生批量计算项目,于2019年6月在上海KubeCon正式开源,并在2020年4月成为CNCF官方项目。2022年4月,Volcano正式晋级为CNCF孵化项目。Volcano社区开源以来,受到众多开发者、合作伙伴和用户的认可和支持。截止目前,累计有490+全球开发者向项目贡献了代码。
Volcano v1.7.0 关键特性介绍
▍1. Pytorch Job强化功能插件
Pytorch是当下最流行的AI框架之一,已被广泛应用于计算机视觉,自然语言处理等深度学习领域,并且已有越来越多的用户开始以容器化的方式在Kubernetes上运行Pytorch来获得更高资源利用率和并行效率。
本次1.7版本提供了Pytorch Job强化功能插件,,免去了容器端口、MASTER_ADDR、MASTER_PORT、WORLD_SIZE、RANK环境变量等众多繁琐的手动配置环节,让用户可以用极简的方式在Volcano上运行Pytorch Job。
Volcano社区当前提供了TensorFlow、MPI和Pytorch等Job强化功能插件,帮助用户更简洁高效的运行对应的训练框架和计算作业。
此外,Volcano还提供了Job插件的扩展开发框架,满足高阶用户针对复杂场景定制Job插件的需求。
设计文档:Pytorch-plugin
用户手册:Pytorch-plugin-user-guide
Issue:#2292
https://github.com/volcano-sh/volcano/issues/2292
▍2. Ray on Volcano
Ray 是一个用于扩展 AI 和 Python 应用程序的统一框架,可以在任何机器、集群、云提供商和 Kubernetes 上运行,并具有不断发展完善的社区生态。
当前,机器学习工作负载的计算密集度越来越高,单节点开发环境已无法满足训练任务在资源上的需求,Ray可以将同一套代码从单机运行无缝扩展到集群中运行。Ray是面向通用场景进行的设计,可以高效运行任何类型的工作负载。
该特性实现Volcano和Ray的协同工作,使用Volcano为Ray提供批量调度功能。目前该特性已在KubeRay v0.4(https://github.com/ray-project/kuberay/releases/tag/v0.4.0)版本正式发布。
用户手册:KubeRay-integration-with-Volcano
https://ray-project.github.io/kuberay/guidance/volcano-integration/#kuberay-integration-with-volcano
Issue:
#2429:https://github.com/volcano-sh/volcano/issues/2429#213:https://github.com/ray-project/kuberay/issues/213
▍3. 增强对Kubernetes通用服务的调度能力
在不同的业务场景下,调度器发挥的价值与能力各有不同。比如,在批量计算场景中,Volcano的调度策略和能力更为丰富;通用服务调度场景中,Kubernetes默认调度器的能力更为均衡。但用户的集群中通常不会只运行一种类型的任务,在既有批量计算任务运行,又需要调度通用服务的场景下,如何兼顾不同类型任务的调度是一项值得研究的工作。
从1.7版本开始,Volcano提供对Kubernetes 默认调度器完全兼容的能力,可用于调度管理长期运行的服务。通过本次功能强化,用户可以使用 Volcano 统一调度长时间运行的服务和批处理工作负载。
重点增强项如下:
Volcano的 scheduler 和 webhook 支持多调度器
支持 NodeVolumeLimits 插件
支持 VolumeZone 插件
支持 PodTopologySpread 插件
支持 SelectorSpread插件
另外,本次版本将对Kubernetes的支持升级到了v1.25。
Issue:
#2394:https://github.com/volcano-sh/volcano/issues/2394
#2510:https://github.com/volcano-sh/volcano/issues/2510
▍4. 支持Volcano的多架构镜像
该特性通过交叉编译实现一键化编译Volcano多架构镜像功能,比如,可以在amd64架构机器上,一键化编译amd64和arm64架构的Volcano基础镜像,并上传至镜像仓库。用户安装部署时,会根据自身环境中机器架构自动选择合适的镜像运行,对开发者和用户更友好。
使用手册:building-docker-images
Issue:#2435
https://github.com/volcano-sh/volcano/pull/2435
▍5. 优化队列状态信息
该特性在队列状态信息中增加已分配资源实时统计功能,通过该功能,用户可以实时查看队列的资源分配情况,方便管理员动态规划资源,使集群资源得到最大化利用。Volcano通过队列的方式对集群资源进行分配管理,使用Capability字段来限制每个队列的资源上限,这是我们进行队列资源分配的硬约束。当前,在集群运行过程中,用户无法清楚的了解到队列中已分配资源和Capability中空闲资源的详细信息,有可能会在队列空闲资源不足时提交大量工作负载,导致作业挂起和autoScaler非预期的触发集群扩容,从而增加云资源的使用成本。通过该特性中新增加的状态信息,用户可以更清晰有效的管理集群资源,控制使用成本。
Issue:#2571
https://github.com/volcano-sh/volcano/issues/2571
致谢贡献者
致谢贡
Volcano v1.7.0 版本包含了来自29位贡献者的数百次代码提交,在此对各位贡献者表示由衷的感谢:
贡献者 GitHub ID:
相关链接
Release note:v1.7.0 https://github.com/volcano-sh/volcano/releases/tag/v1.7.0
Branch:release-1.7 https://github.com/volcano-sh/volcano/tree/release-1.7
深入了解Volcano
Volcano云原生批量计算项目主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。社区已吸引2.6万+全球开发者,并获得2.8k Star和670+ Fork,参与贡献企业包括华为、AWS、百度、腾讯、京东、小红书等。目前,Volcano在人工智能、大数据、基因测序等海量数据计算和分析场景已得到快速应用,已完成对Spark、Flink、Tensorflow、PyTorch、Argo、MindSpore、Paddlepaddle 、Kubeflow、MPI、Horovod、mxnet、KubeGene、Ray等众多主流计算框架的支持,并构建起完善的上下游生态。
Volcano社区技术交流地址
Volcano官网:https://volcano.sh
GitHub: https://github.com/volcano-sh/volcano
每周例会: https://zoom.us/j/91804791393
添加社区小助手k8s2222回复“Volcano”进入技术交流群
Volcano 社区 v1.7.0 版本正式发布 | 云原生批量计算的更多相关文章
- Volcano社区v1.6.0版本正式发布
摘要:Volcano社区v1.6.0版本正式发布.此次版本增加了弹性作业管理.基于真实负载的动态调度. 基于真实负载的重调度.Volcano Job插件--MPI等多个新特性. 本文分享自华为云社区& ...
- 重磅!业界首个云原生批量计算项目Volcano正式晋级为CNCF孵化项目
摘要:4月7日,云原生计算基金会(CNCF)宣布,由华为云捐献的业界首个云原生批量计算项目Volcano正式晋级为CNCF孵化项目. 4月7日,云原生计算基金会(CNCF)宣布,由华为云捐献的业界首个 ...
- Dapr v1.9.0 版本已发布
Dapr是一套开源.可移植的事件驱动型运行时,允许开发人员轻松立足云端与边缘位置运行弹性.微服务.无状态以及有状态等应用程序类型.Dapr能够确保开发人员专注于编写业务逻辑,而不必分神于解决分布式系统 ...
- [转帖]Kubernetes v1.17 版本解读 | 云原生生态周报 Vol. 31
Kubernetes v1.17 版本解读 | 云原生生态周报 Vol. 31 https://www.kubernetes.org.cn/6252.html 2019-12-13 11:59 ali ...
- 官宣!ElasticJob 3.0.0 版本正式发布
ElasticJob 是面向互联网生态和海量任务的分布式调度解决方案,由两个相互独立的子项目 ElasticJob-Lite 和 ElasticJob-Cloud 组成.它通过弹性调度.资源管控.以及 ...
- 微信小程序商城开源项目,Weixin-App-Shop 1.0 版本正式发布!!!
微信小程序商城开源项目,Weixin-App-Shop 1.0 版本正式发布 Weixin-App-Shop 是捷微团队开发的微信小程序商城开源项目,涵盖了微信商城的全部功能,能够快速发布简单易用的小 ...
- Vue CLI4.0版本正式发布了!一起来看看有哪些新的变化吧
Vue CLI4.0版本正式发布 这个主要的版本更新主要关注底层工具的必要版本更新.更好的默认设置和其他长期维护所需的微调. 我们希望为大多数用户提供平稳的迁移体验. Vue CLI v4提供了对Ni ...
- 巨杉数据库加入CNCF云原生应用计算基金会,共建开源技术生态
近日,巨杉数据库正式加入全球顶级开源社区,云原生应用计算基金会 (Cloud Native Computing Foundation,以下简称CNCF),成为CNCF基金会会员,是中国最早加入的开源云 ...
- Kubernetes v1.17 版本解读 | 云原生生态周报 Vol. 31
作者 | 徐迪.李传云.黄珂.汪萌海.张晓宇.何淋波 .陈有坤.李鹏审核 | 陈俊 上游重要进展 1. Kubernetes v1.17 版本发布 功能稳定性是第一要务.v1.17 包含 22 个增强 ...
- 二进制搭建Kubernetes集群(最新v1.16.0版本)
目录 1.生产环境k8s平台架构 2.官方提供三种部署方式 3.服务器规划 4.系统初始化 5.Etcd集群部署 5.1.安装cfssl工具 5.2.生成etcd证书 5.2.1 创建用来生成 CA ...
随机推荐
- python环境安装(pyhon和pycharm)
一.python安装 在地址栏输入https://www.python.org/进入python官网, 点击windows后会出现各种可供下载的历史版本, 安装包下载后,双击运行 点击下一步 勾选下面 ...
- Educational Codeforces Round 122 (Rated for Div. 2)/codeforces1633
CodeForces1633 Div. 7 解析: 题目大意 给定 \(t\) 组数据.每组数据给定一个数 \(n\)(\(10\le n\le 999\)). 每次操作可以修改 \(n\) 任意一位 ...
- 《上传那些事儿之Nest与Koa》——文件格式怎么了!
转载自:juejin - 马睿不想说话 概要 本文主要针对在使用node作为服务端接口时,前端上传上传文件至node作为中转,再次上传至oss/cdn的场景.以及针对在这个过程中,需要对同一个文件进行 ...
- Java单例模式,看这一篇就够了
在创建型设计模式中,我们第一个学习的是单例模式(Singleton Pattern),这是设计模式中最简单的模式之一. 单例是什么意思呢? 单例就是单实例的意思,即在系统全局,一个类只创建一个对象,并 ...
- python 类相关 下划线相关 __init__
类 1.静态方法 class C(object): @staticmethod def f(): print('runoob'); C.f(); # 静态方法无需实例化 cobj = C() cobj ...
- 16.python中的回收机制
python中的垃圾回收机制是以引用计数器为主,标记清除和分代回收为辅的 + 缓存机制 1.引用计数器 在python内部维护了一个名为refchain的环状双向链表,在python中创建的任何对象都 ...
- 优雅的重启uwsgi 告别uwsgi reload过程中造成的无法请求、请求延迟等问题
[uwsgi]#使用优雅重启 lazy-apps = true #监听monitor文件 当monitor文件发生改变是重启uwsgi touch-chain-reload = /home/monit ...
- 【iOS逆向】某营业厅算法分析
阅读此文档的过程中遇到任何问题,请关注公众号[移动端Android和iOS开发技术分享]或加QQ群[812546729] 1.目标 使用frida stalker分析某营业厅的签名算法. 2.操作环境 ...
- Kubernetes_从零开始搭建k8s集群(亲测可用)
一.前言 本文讲述从零开始搭建k8s集群,均使用国内镜像,版本均统一,使用两个虚拟机,一个主节点,一个从节点,保证k8s一次搭建成功. 注意:Kubernetes,简称K8s,是用8代替名字中间的8个 ...
- 搜索与图论篇——DFS和BFS
搜索与图论篇--DFS和BFS 本次我们介绍搜索与图论篇中DFS和BFS,我们会从下面几个角度来介绍: DFS和BFS简介 DFS数字排序 DFS皇后排序 DFS树的重心 BFS走迷宫 BFS八数码 ...