kubernetes社区非常活跃,每季度都会发布一个release.但是线上集群业务可用性要求较高,场景复杂,任何微小的变更都需要非常小心,此时跟随社区版本进行升级略显吃力.但是为了能够使用到最新的一些feature我们必须不定期进行一些升级操作,在经历了一次线上集群的升级操作,踩完一些坑之后,分享一些收获与感悟.原来的集群版本是1.10,为了提高GPU集群的资源利用率,需要在调度器层面支持一些抢占调度等新特性,所以升级到1.14,此次升级的集群规模不是特别大,但是有一些在线任务,还是需要慎重操