1 要解决的问题 集群分配给多个用户使用时,需要使用配额以限制用户的资源使用,包括 CPU 核数.内存大小.GPU 卡数等,以防止资源被某些用户耗尽,造成不公平的资源分配. 大多数情况下,集群原生的 ResourceQuota 机制可以很好地解决问题.但随着集群规模扩大,以及任务类型的增多,我们对配额管理的规则需要进行调整: ResourceQuota 针对单集群设计,但实际上,开发/生产中经常使用 多集群 环境. 集群大多数任务通过比如deployment.mpijob 等 高级资源对象 进行…