在kubernetes的scheduler调度器的设计中为用户预留了两种扩展机制SchdulerExtender与Framework，本文主要浅谈一下SchdulerExtender的实现，因为还有一篇Framework, 所以本文的k8s代码切到1.18版本

1. 设计思路

1.1 实现机制

SchdulerExtender是kubernets外部扩展方式，用户可以根据需求独立构建调度服务，实现对应的远程调用接口(目前是http), scheduler在调度的对应阶段会根据用户定义的资源和接口来进行远程调用，对应的service根据自己的资源数据和scheduler传递过来的中间调度结果来进行决策

1.2 服务插拔

extender只需要实现对应插件的接口，并编写yaml文件来进行注册对应的服务接口，就可以实现scheduler的扩展，不需要修改任何调度器的代码，即可实现调度插件的插拔

1.3 资源存储

因为是独立的服务，extender可以实现自定义资源的存储与获取，甚至可以不依赖于etcd使用第三方的存储来进行资源的存储，主要是用于kubernetes中不支持的那些资源的调度扩展

2. SchedulerExtender

2.1 接口与实现

2.1.1 接口声明

Scheduler主要用于扩展



type SchedulerExtender interface {

	// Name returns a unique name that identifies the extender.

	Name() string

	//预选阶段, 进行筛选

	Filter(pod *v1.Pod, nodes []*v1.Node) (filteredNodes []*v1.Node, failedNodesMap extenderv1.FailedNodesMap, err error)

	// 优选阶段，参与优选评分

	Prioritize(pod *v1.Pod, nodes []*v1.Node) (hostPriorities *extenderv1.HostPriorityList, weight int64, err error)

	// extender对pod指向绑定操作

	Bind(binding *v1.Binding) error

	// 扩展是否支持bind

	IsBinder() bool

	// 是否对对应的pod的资源感兴趣

	IsInterested(pod *v1.Pod) bool

	// 抢占阶段

	ProcessPreemption(

		pod *v1.Pod,

		nodeToVictims map[*v1.Node]*extenderv1.Victims,

		nodeInfos listers.NodeInfoLister) (map[*v1.Node]*extenderv1.Victims, error)

	// 是否支持抢占

	SupportsPreemption() bool

	// IsIgnorable returns true indicates scheduling should not fail when this extender

	// is unavailable. This gives scheduler ability to fail fast and tolerate non-critical extenders as well.

	IsIgnorable() bool

}

2.1.2 默认实现

// HTTPExtender implements the algorithm.SchedulerExtender interface.

type HTTPExtender struct {

	extenderURL      string

	preemptVerb      string

	filterVerb       string

	prioritizeVerb   string

	bindVerb         string

	weight           int64		  // 对应的权重

	client           *http.Client // 负责http接口通过

	nodeCacheCapable bool		  // 是否传递node元数据

	managedResources sets.String  // 当前extender管理的资源

	ignorable        bool

}

extender的默认是海鲜是同过 HTTPExtender实现，即基于http协议通过json来进行数据传递，其核心数据结构如下

2.2 关键实现机制

2.2.1 远程通信接口

其实通信很简单，通过http协议json序列化方式来进行远程post的提交，并序列化返回的结果

// Helper function to send messages to the extender

func (h *HTTPExtender) send(action string, args interface{}, result interface{}) error {

	// 序列化

    out, err := json.Marshal(args)

	if err != nil {

		return err

	}

    // 拼接url

	url := strings.TrimRight(h.extenderURL, "/") + "/" + action

	req, err := http.NewRequest("POST", url, bytes.NewReader(out))

	if err != nil {

		return err

	}

	// 设置http header

	req.Header.Set("Content-Type", "application/json")

    // 发送数据接收结果

	resp, err := h.client.Do(req)

	if err != nil {

		return err

	}

	defer resp.Body.Close()

	if resp.StatusCode != http.StatusOK {

		return fmt.Errorf("Failed %v with extender at URL %v, code %v", action, url, resp.StatusCode)

	}

	// 序列化返回结果

	return json.NewDecoder(resp.Body).Decode(result)

}

2.2.2 node cache

nodeCacheCapable是声明extender的一个参数，即对应的extender是否会缓存node的数据，如果缓存数据，则只需要传递node的名字，而不会进行所有元数据的传递，可以减少通信的数据包大小

	if h.nodeCacheCapable {

		nodeNameSlice := make([]string, 0, len(nodes))

		for _, node := range nodes {

            // 只会传递node的名字

			nodeNameSlice = append(nodeNameSlice, node.Name)

		}

		nodeNames = &nodeNameSlice

	} else {

		nodeList = &v1.NodeList{}

		for _, node := range nodes {

            // 传递node所有元数据

			nodeList.Items = append(nodeList.Items, *node)

		}

	}

	// 构建传递的数据

	args = &extenderv1.ExtenderArgs{

		Pod:       pod,

		Nodes:     nodeList,

		NodeNames: nodeNames,

	}

2.2.3 managedResources

在进行extender的调用的时候，会进行检测extenders会否对对应的pod的container的资源感兴趣，如果感兴趣，则进行调用，否则则会进行跳过

func (h *HTTPExtender) IsInterested(pod *v1.Pod) bool {

	if h.managedResources.Len() == 0 {

		return true

	}

    // pod的容器

	if h.hasManagedResources(pod.Spec.Containers) {

		return true

	}

    // pod的初始化容器

	if h.hasManagedResources(pod.Spec.InitContainers) {

		return true

	}

	return false

}

func (h *HTTPExtender) hasManagedResources(containers []v1.Container) bool {

	for i := range containers {

		container := &containers[i]

        // 检查container的requests里面是否有感兴趣的资源

		for resourceName := range container.Resources.Requests {

			if h.managedResources.Has(string(resourceName)) {

				return true

			}

		}

        // 检查container的limits里面是否有感兴趣的资源

		for resourceName := range container.Resources.Limits {

			if h.managedResources.Has(string(resourceName)) {

				return true

			}

		}

	}

	return false

}

2.3 过滤接口Filter

Filter主要是用于在预选阶段完成后调用extender进行二次过滤

2.3.1 循环串行调用

在findNodesThatPassExtenders中会遍历所有的extender来确定是否关心对应的资源，如果关心就会调用Filter接口来进行远程调用，并将筛选结果传递给下一个extender，逐步缩小筛选集合，注意这个阶段的插件调用是串行，因为每个插件都以上个插件的结果来继续筛选

func (g *genericScheduler) findNodesThatPassExtenders(pod *v1.Pod, filtered []*v1.Node, statuses framework.NodeToStatusMap) ([]*v1.Node, error) {

	for _, extender := range g.extenders {

		if len(filtered) == 0 {

			break

		}

        // 判断对应的extender是否关心pod中容器的资源

		if !extender.IsInterested(pod) {

			continue

		}

        // 进行远程过程的调用

		filteredList, failedMap, err := extender.Filter(pod, filtered)

		if err != nil {

			if extender.IsIgnorable() {

				klog.Warningf("Skipping extender %v as it returned error %v and has ignorable flag set",

					extender, err)

				continue

			}

			return nil, err

		}

		// 通过结果

		for failedNodeName, failedMsg := range failedMap {

			if _, found := statuses[failedNodeName]; !found {

				statuses[failedNodeName] = framework.NewStatus(framework.Unschedulable, failedMsg)

			} else {

				statuses[failedNodeName].AppendReason(failedMsg)

			}

		}

        // 传递给下一个extender之前的FIlter结果

		filtered = filteredList

	}

	return filtered, nil

}

2.3.2 远程过滤接口

func (h *HTTPExtender) Filter(

	pod *v1.Pod,

	nodes []*v1.Node,

) ([]*v1.Node, extenderv1.FailedNodesMap, error) {

	var (

		result     extenderv1.ExtenderFilterResult

		nodeList   *v1.NodeList

		nodeNames  *[]string

		nodeResult []*v1.Node

		args       *extenderv1.ExtenderArgs

	)

	fromNodeName := make(map[string]*v1.Node)

	for _, n := range nodes {

		fromNodeName[n.Name] = n

	}

	if h.filterVerb == "" {

		return nodes, extenderv1.FailedNodesMap{}, nil

	}

    // 根据nodeCacheCapable来进行参数的传递

	if h.nodeCacheCapable {

		nodeNameSlice := make([]string, 0, len(nodes))

		for _, node := range nodes {

			nodeNameSlice = append(nodeNameSlice, node.Name)

		}

		nodeNames = &nodeNameSlice

	} else {

		nodeList = &v1.NodeList{}

		for _, node := range nodes {

			nodeList.Items = append(nodeList.Items, *node)

		}

	}

	args = &extenderv1.ExtenderArgs{

		Pod:       pod,

		Nodes:     nodeList,

		NodeNames: nodeNames,

	}

	// 调用对应service的filter接口

	if err := h.send(h.filterVerb, args, &result); err != nil {

		return nil, nil, err

	}

	if result.Error != "" {

		return nil, nil, fmt.Errorf(result.Error)

	}

    // 根据nodeCacheCapable和结果来进行结果数据的组合

	if h.nodeCacheCapable && result.NodeNames != nil {

		nodeResult = make([]*v1.Node, len(*result.NodeNames))

		for i, nodeName := range *result.NodeNames {

			if n, ok := fromNodeName[nodeName]; ok {

				nodeResult[i] = n

			} else {

				return nil, nil, fmt.Errorf(

					"extender %q claims a filtered node %q which is not found in the input node list",

					h.extenderURL, nodeName)

			}

		}

	} else if result.Nodes != nil {

		nodeResult = make([]*v1.Node, len(result.Nodes.Items))

		for i := range result.Nodes.Items {

			nodeResult[i] = &result.Nodes.Items[i]

		}

	}

	return nodeResult, result.FailedNodes, nil

}

2.4 优先级接口Prioritize

2.4.1 并行优先级统计

优先级阶段调用extender插件是并行的，通过并行的调用extender获取主机结果，然后再串行的汇总结果，计算算法为：主机得分=得分*当前extender的优先级

		var mu sync.Mutex

		var wg sync.WaitGroup

		combinedScores := make(map[string]int64, len(nodes))

		for i := range g.extenders {

			if !g.extenders[i].IsInterested(pod) {

				continue

			}

			wg.Add(1)

            // 并行调用 extender

			go func(extIndex int) {

				metrics.SchedulerGoroutines.WithLabelValues("prioritizing_extender").Inc()

				defer func() {

					metrics.SchedulerGoroutines.WithLabelValues("prioritizing_extender").Dec()

					wg.Done()

				}()

				prioritizedList, weight, err := g.extenders[extIndex].Prioritize(pod, nodes)

				if err != nil {

					// Prioritization errors from extender can be ignored, let k8s/other extenders determine the priorities

					return

				}

				mu.Lock()

                // 串行进行结果的汇总

				for i := range *prioritizedList {

					host, score := (*prioritizedList)[i].Host, (*prioritizedList)[i].Score

					if klog.V(10) {

						klog.Infof("%v -> %v: %v, Score: (%d)", util.GetPodFullName(pod), host, g.extenders[extIndex].Name(), score)

					}

                    // 主机的结果=得分*当前extender的优先级

					combinedScores[host] += score * weight

				}

				mu.Unlock()

			}(i)

		}

		// wait for all go routines to finish

		wg.Wait()

2.4.2 合并优先级结果

结果汇总的得分，在当前版本中的计算：主机得分=主机得分*(100/10),

		for i := range result {

			// MaxExtenderPriority may diverge from the max priority used in the scheduler and defined by MaxNodeScore, therefore we need to scale the score returned by extenders to the score range used by the scheduler.

			result[i].Score += combinedScores[result[i].Name] * (framework.MaxNodeScore / extenderv1.MaxExtenderPriority)

		}

2.4.3 优先级接口调用

优先级调用接口跟Filter流程上都是一样的，只需要拼接传递数据，然后返回结果即可，不同的是返回结果中会返回当前extender的优先级，以用于后续计算

func (h *HTTPExtender) Prioritize(pod *v1.Pod, nodes []*v1.Node) (*extenderv1.HostPriorityList, int64, error) {

	var (

		result    extenderv1.HostPriorityList

		nodeList  *v1.NodeList

		nodeNames *[]string

		args      *extenderv1.ExtenderArgs

	)

	if h.prioritizeVerb == "" {

		result := extenderv1.HostPriorityList{}

		for _, node := range nodes {

			result = append(result, extenderv1.HostPriority{Host: node.Name, Score: 0})

		}

		return &result, 0, nil

	}

    // 根据node cache来进行传递参数的构建

	if h.nodeCacheCapable {

		nodeNameSlice := make([]string, 0, len(nodes))

		for _, node := range nodes {

			nodeNameSlice = append(nodeNameSlice, node.Name)

		}

		nodeNames = &nodeNameSlice

	} else {

		nodeList = &v1.NodeList{}

		for _, node := range nodes {

			nodeList.Items = append(nodeList.Items, *node)

		}

	}

	args = &extenderv1.ExtenderArgs{

		Pod:       pod,

		Nodes:     nodeList,

		NodeNames: nodeNames,

	}

	if err := h.send(h.prioritizeVerb, args, &result); err != nil {

		return nil, 0, err

	}

    // 返回结果

	return &result, h.weight, nil

}

2.5 绑定阶段

绑定阶段其实就只需要把当前结果传递给对应的插件，即可

func (h *HTTPExtender) Bind(binding *v1.Binding) error {

	var result extenderv1.ExtenderBindingResult

	if !h.IsBinder() {

		// This shouldn't happen as this extender wouldn't have become a Binder.

		return fmt.Errorf("Unexpected empty bindVerb in extender")

	}

	req := &extenderv1.ExtenderBindingArgs{

		PodName:      binding.Name,

		PodNamespace: binding.Namespace,

		PodUID:       binding.UID,

		Node:         binding.Target.Name,

	}

	if err := h.send(h.bindVerb, &req, &result); err != nil {

		return err

	}

	if result.Error != "" {

		return fmt.Errorf(result.Error)

	}

	return nil

}

新年回来第一次更新，文章内容相对简单一点，今天就到这里了，谢谢大佬们观看，希望对大佬们有用，扩展机制的后续总结会在分析完framework之后，希望大佬们能帮转发下，谢谢大家

微信号：baxiaoshi2020 欢迎一起交流学习分享,有个小群欢迎大佬光临

个人博客: www.sreguide.com

图解kubernetes调度器SchedulerExtender扩展的更多相关文章

图解kubernetes调度器ScheduleAlgorithm核心实现学习框架设计
ScheduleAlgorithm是一个接口负责为pod选择一个合适的node节点,本节主要解析如何实现一个可扩展.可配置的通用算法框架来实现通用调度,如何进行算法的统一注册和构建,如何进行metad ...
图解kubernetes调度器SchedulingQueue核心源码实现
SchedulingQueue是kubernetes scheduler中负责进行等待调度pod存储的对,Scheduler通过SchedulingQueue来获取当前系统中等待调度的Pod,本文主要 ...
图解kubernetes调度器抢占流程与算法设计
抢占调度是分布式调度中一种常见的设计,其核心目标是当不能为高优先级的任务分配资源的时候,会通过抢占低优先级的任务来进行高优先级的调度,本文主要学习k8s的抢占调度以及里面的一些有趣的算法 1. 抢占调 ...
图解kubernetes调度器SchedulerCache核心源码实现
SchedulerCache是kubernetes scheduler中负责本地数据缓存的核心数据结构, 其实现了Cache接口,负责存储从apiserver获取的数据,提供给Scheduler调度器 ...
图解kubernetes调度器预选设计实现学习
Scheduler中在进行node选举的时候会首先进行一轮预选流程,即从当前集群中选择一批node节点,本文主要分析k8s在预选流程上一些优秀的筛选设计思想,欢迎大佬们指正 1. 基础设计 1.1 预 ...
kubernetes 调度器
调度器 kube-scheduler 是 kubernetes 的核心组件之一,主要负责整个集群资源的调度功能,根据特定的调度算法和策略,将 Pod 调度到最优的工作节点上面去,从而更加合理.更加充分 ...
Kubernetes 调度器实现初探
Kubernetes 调度器 Kubernetes 是一个基于容器的分布式调度器,实现了自己的调度模块.在Kubernetes集群中,调度器作为一个独立模块通过pod运行.从几个方面介绍Kuberne ...
巧用Prometheus来扩展kubernetes调度器
Overview 本文将深入讲解如何扩展 Kubernetes scheduler 中各个扩展点如何使用,与扩展scheduler的原理,这些是作为扩展 scheduler 的所需的知识点.最后会完 ...
第十五章 Kubernetes调度器
一.简介 Scheduler 是 kubernetes 的调度器,主要的任务是把定义的 pod 分配到集群的节点上.听起来非常简单,但有很多要考虑的问题: ① 公平:如何保证每个节点都能被分配资源 ② ...

随机推荐

2019牛客多校第一场 I Points Division（动态规划+线段树）
2019牛客多校第一场 I Points Division(动态规划+线段树) 传送门:https://ac.nowcoder.com/acm/contest/881/I 题意: 给你n个点,每个点有 ...
Elasticsearch系列---实战搜索语法
概要本篇介绍Query DSL的语法案例,查询语句的调试,以及排序的相关内容. 基本语法空查询最简单的搜索命令,不指定索引和类型的空搜索,它将返回集群下所有索引的所有文档(默认显示10条): G ...
MyISAM与InnoDB的索引实现区别
一 MyISAM索引实现 1. 主键索引 MyISAM引擎使用B+树作为索引结果,叶节点的data域存放的是数据记录的地址.下图为MyISAM表的主索引,Col1为主键. 2. 辅助索引在MyISA ...
TCP三次握手、四次挥手详解
1.TCP报文格式 TCP(Transmission Control Protocol) 传输控制协议.TCP是主机对主机层的传输控制协议,提供可靠的连接服务,采用三次握手确认建立一个连接. 我们需要 ...
【题解】PKUWC2018简要题解
[题解]PKUWC2018简要题解 Minimax 定义结点x的权值为: 1.若x没有子结点,那么它的权值会在输入里给出,保证这类点中每个结点的权值互不相同. 2.若x有子结点,那么它的权值有p的概率 ...
Java入门(三)——集合概讲
集合(或者叫容器)是Java的核心知识点,它有着很深的深度.我们这里不会设计多深,仅仅作为了解入门,深入了解请移步各种集合源码文章.好的,下面正是开始介绍... Java集合为何而生我们知道,Jav ...
C / C++ 保留小数函数（setprecision(n)的一些用法总结）
从C语言开始正式学习C++,但是一上来输出位数就懵了,查资料才知道C++需要使用 “ setprecision ”函数.自己总结一下. 首先说C++代码 #include <iomanip&g ...
python django 基本环境配置
创建虚拟环境: python -m venv django启动虚拟环境: .\venv\Scripts\activate下载django: pip install django查看django命令: ...
基于GMC/umat的复合材料宏细观渐近损伤分析（二）
采用GMC/umat进行缠绕复合材料力学性能分析,将一些细节分享如下: 1.纤维缠绕复合材料内部交叉及波动分布受缠绕角度.缠绕线形的影响而不同,任意一种纤维缠绕结构其都存在层合区域.螺旋波动区域和环向 ...
html 贪吃蛇代码
最近在搞自己的网站,维护的时候准备放个贪吃蛇上去,顶一下原有的页面. 这个贪吃蛇有一点毒.原来设定了100级:100级刚开局就挂了.后来改掉了选项菜单,修复了. 还有什么bug,欢迎点击侧边的QQ按钮 ...

图解kubernetes调度器SchedulerExtender扩展