在前面的学习中,我们学到了 Deployment 部署,以及副本数(ReplicaSet),但是 Pod 部署到哪个 Worker 节点是随机,即使有 3个 Woker 和设定 3个 副本,不一定每个 Node 刚刚好运行一个 Pod,也可能其中 Node 运行着三个副本。

在本篇我们将探究 Kubernetes 中的 DaemonSet、容忍度、亲和性、Label、选择器等概念,以便控制 pod 的部署。

标签和nodeSelector

标签(Label)是附加到 Kubernetes 对象上的键值对,如果用 json 表示附加到 metadata 的 label:

"metadata": {
"labels": {
"key1" : "value1",
"key2" : "value2"
}
}

yaml:

metadata:
labels:
key1: "value1"
key2: "value2"

标签主要是用于表示对用户有意义的对象的属性标识。

可以给节点设定一些 Label,例如在 kube-system 命名空间中,运行着 Kubernetes 的核心组件,我们可以查看此命名空间中所有组件的 Label。

kubectl get nodes --namespace=kube-system --show-labels
beta.kubernetes.io/arch=amd64,
beta.kubernetes.io/os=linux,
kubernetes.io/arch=amd64,
... ...

我们也可以手动给一个 Node 添加标签。

kubectl label nodes <node-name> <label-key>=<label-value>

例如我们给节点设置一个 disksize,表示节点的硬盘是否够大。

kubectl label nginx disksize=big

然后我们在编写 yaml 文件时,希望这个 pod 在容量大的 Node 上运行,可以这样写:

  nodeSelector:
disksize=big

顺便聊一下官方的一个例子,设置 Node 的 Label,表示硬盘是 ssd。

kubectl label nodes kubernetes-foo-node-1.c.a-robinson.internal disktype=ssd

在 yaml 文件的节点选择器中,添加选择。

spec:
containers:
- name: nginx
image: nginx
imagePullPolicy: IfNotPresent
nodeSelector:
disktype: ssd

Label 可以在多个地方使用,例如在 Node 上添加 Label,标识此 Node;而在 NodeSelector 里使用,可以选择合适的 Node 运行 Pod;在 metadata 中使用,可以对元数据加以描述。

在 metadata 中添加的 Label,可以在命令查询时做筛选。

查询 pod 的 Label:

kubectl get pods --show-labels

查找符合条件的 pod(参考 LABELS 字段,可以根据里面的标签选择):

kubectl get pods -l app=nginx

标签选择

在前面,我们学习了 nodeSelector ,可以帮助我们选择合适的 Node 运行 Pod,实际上 Kubernets 的标签选择是丰富多样的,例如:

  nodeSelector:
disktype: ssd
disksize: big

则表示节点选择器是等值选择,表达式是 disktype=ssd && disksize=big

标签选择有等值和集合两种,其中等值选择有 ===!= 三种,=== 无区别。在多个需求(多个label)的情况下,相对于使用 && 运算符,但是选择器不存在 || 这种逻辑或运算符。

yaml 只支持 {key}:{value} 这种形式,而我们使用命令形式时,则可使用以上三种运算符。

kubectl get nodes -l disktype=ssd,disksize!=big
# 多个条件使用 逗号","" 隔开,而不是 "&&"。

对于集合选择方式,支持三种操作符:innotinexists。不过别理解成是从集合中选择,下面举个例子。

假如有三个 Node,其 disksize 有 big、medium、small,我们要部署一个 pod,在 big、medium 中都可以运行,则:

... -l disksize in (big,medium)
... -l disksize notin (small)
# 不在 small 中运行

而 exists 则跟 != 类似,但是 exists 表示只要存在这个 label 即可,而不论其设置了是什么值。

-l disksize
# 等同 -l disksize in (big,medium,small)

我们也可以使用 '' 把选择表达式包起来。

kubectl get pods -l 'app=nginx'

前面已经提到了 yaml 的 nodeSelector 和 命令式的选择,这里我们介绍 yaml 的 selector。

前面我们提到在 Deployment 的 metadata 中加上 Label,即 pod 加上 Label,我们也在 kubectl get pods 中使用 Label 选择过滤 pod。同样,当我们创建 Service 或者使用 ReplicationController 时,也可以使用标签选择合适的 pod。

假如我们已经部署了 nginx,那么查询 kubectl get pods --show-labels 时,其 pod 的 LABELS 会有 app=nginx,那么我们可以这样选择:

  selector:
app: nginx

完整版本:

apiVersion: v1
kind: Service
metadata:
name: my-service
spec:
type: LoadBalancer
selector:
app: nginx
ports:
- protocol: TCP
port: 80
targetPort: 6666
status:
loadBalancer:
ingress:
- ip: 192.0.2.127

selector 还支持以下选择方式 matchLabelsmatchExpressions

matchLabels 是由 {key,value} 对组成的映射。 matchLabels 映射中的单个 {key,value } 等同于 matchExpressions 的元素, 其 key 字段为 "key",operator 为 "In",而 values 数组仅包含 "value"。

matchExpressions 是 Pod 选择算符需求的列表。 有效的运算符包括 InNotInExistsDoesNotExist。 在 InNotIn 的情况下,设置的值必须是非空的。 来自 matchLabelsmatchExpressions 的所有要求都按逻辑与的关系组合到一起 -- 它们必须都满足才能匹配。

示例如下:

selector:
matchLabels:
component: redis
matchExpressions:
- {key: tier, operator: In, values: [cache]}
- {key: environment, operator: NotIn, values: [dev]}

这里就不在详细说这些选择规则了,前面提到的已经够用了,读者可以查阅官方文档学习更多复杂的操作:https://kubernetes.io/zh/docs/concepts/overview/working-with-objects/labels/

亲和性和反亲和性

前面我们学习了 nodeSelector ,使用 nodeSelector 选择合适的 Label,可以表达我们约束的类型。

亲和性则类似于 nodeSelector,可以根据节点上的标签约束 pod 可以调度到哪些节点。

pod 亲和性有两种别为:

  • requiredDuringSchedulingIgnoredDuringExecution

    硬需求,将 pod 调度到一个节点必须满足的规则。

  • preferredDuringSchedulingIgnoredDuringExecution

    尝试执行但是不能保证偏好。

这是官方的一个例子:

apiVersion: v1
kind: Pod
metadata:
name: with-node-affinity
spec:
affinity:
nodeAffinity:
requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
- matchExpressions:
- key: kubernetes.io/e2e-az-name
operator: In
values:
- e2e-az1
- e2e-az2
preferredDuringSchedulingIgnoredDuringExecution:
- weight: 1
preference:
matchExpressions:
- key: another-node-label-key
operator: In
values:
- another-node-label-value
containers:
- name: with-node-affinity
image: k8s.gcr.io/pause:2.0

亲和性的约束相对于:

... ... -l kubernetes.io/e2e-az-name in (e2e-az1,e2e-az2)

affinity 设置亲密关系,nodeAffinity 设置节点亲密关系,最后才到 亲和性,它们表示必须满足和尽量满足。

如果我们设置了多个 nodeSelectorTerms :

requiredDuringSchedulingIgnoredDuringExecution:
nodeSelectorTerms:
...
nodeSelectorTerms:

则只需要满足其中一种即可调度 pod 到 node 上。

如果你同时指定了 nodeSelectornodeAffinity两者必须都要满足, 才能将 Pod 调度到候选节点上。

节点亲和性语法支持下面的操作符: InNotInExistsDoesNotExistGtLt

Pod 亲和性与反亲和性的合法操作符有 InNotInExistsDoesNotExist

通过 -Affinity 可以设置亲和性,例如节点亲和性 nodeAffinity,而且设置反亲和性使用 -AntiAffinity,例如 nodeAntiAffinity

反亲和性跟亲和性一样,都有 requiredDuringSchedulingIgnoredDuringExecution 硬限制和 preferredDuringSchedulingIgnoredDuringExecution 软限制,只是反亲和性是相反的表示,如果符合条件则不能调度。

关于亲和性和反亲和性的说明就到这里,着两者的配置比较多和复杂,读者可以参考官方文档,这里不在赘述。

污点和容忍度

前面提到亲和性和反亲和性,我们加以通过 pod 选择合适的 node,或者 service 选择合适的 pod,这些拥有 Label 的对象都是被选择的。

这里,我们介绍污点和容忍度,它们可以排斥 “被选择” 的命运。

节点污点(taint) 可以排斥一类特定的 pod,而 容忍度(Tolerations)则表示能够容忍这个对象的污点。

当节点添加一个污点后,除非 pod 声明能够容忍这个污点,否则 pod 不会被调度到这个 节点上。

系统会 尽量 避免将 Pod 调度到存在其不能容忍污点的节点上, 但这不是强制的。Kubernetes 处理多个污点和容忍度的过程就像一个过滤器:从一个节点的所有污点开始遍历, 过滤掉那些 Pod 中存在与之相匹配的容忍度的污点。

但是如果你只有一个 worker,那么设置了污点,那 pod 也只能选择在这个节点上运行。

添加污点格式:

kubectl taint node [node] key=value:[effect]

更新污点或覆盖:

kubectl taint node [node] key=value:[effect] --overwrite=true

使用 kubectl taint 给节点增加一个污点。

kubectl taint nodes node1 key1=value1:NoSchedule

移除污点:

kubectl taint nodes node1 key1=value1:NoSchedule-

其中,污点需要设置 label ,并设置这个 label 的效果为 NoSchedule。

污点的效果称为 effect ,节点的污点可以设置为以下三种效果:

  • NoSchedule:不能容忍此污点的 Pod 不会被调度到节点上;不会影响已存在的 pod。
  • PreferNoSchedule:Kubernetes 会避免将不能容忍此污点的 Pod 安排到节点上。
  • NoExecute:如果 Pod 已在节点上运行,则会将该 Pod 从节点中逐出;如果尚未在节点上运行,则不会将其安排到节点上。

但是某些系统创建的 Pod 可以容忍所有 NoExecuteNoSchedule 污点,因此不会被逐出,例如 master 节点是不能被部署 pod 的,但是 kube-system 命名空间却有很多系统 pod。当然通过修改污点,可以让 户 pod 部署到 master 节点中。

查询节点的污点:

kubectl describe nodes | grep Taints
Taints:             node-role.kubernetes.io/master:NoSchedule
Taints: key1=value1:NoSchedule

系统默认污点

我们去除 master 的污点:

kubectl taint node instance-1 node-role.kubernetes.io/master:NoSchedule-

然后部署 nginx pod。

kubectl create deployment nginxtaint --image=nginx:latest --replicas=3

查看 pod:

kubectl get pods -o wide

结果笔者查到三个副本都在 master 节点上。

为了保证集群安全,我们需要恢复 master 的污点。

kubectl taint node instance-1 node-role.kubernetes.io/master:NoSchedule

当某种条件为真时,节点控制器会自动给节点添加一个污点。当前内置的污点包括:

  • node.kubernetes.io/not-ready:节点未准备好。这相当于节点状态 Ready 的值为 "False"。
  • node.kubernetes.io/unreachable:节点控制器访问不到节点. 这相当于节点状态 Ready 的值为 "Unknown"。
  • node.kubernetes.io/out-of-disk:节点磁盘耗尽。
  • node.kubernetes.io/memory-pressure:节点存在内存压力。
  • node.kubernetes.io/disk-pressure:节点存在磁盘压力。
  • node.kubernetes.io/network-unavailable:节点网络不可用。
  • node.kubernetes.io/unschedulable: 节点不可调度。
  • node.cloudprovider.kubernetes.io/uninitialized:如果 kubelet 启动时指定了一个 "外部" 云平台驱动, 它将给当前节点添加一个污点将其标志为不可用。在 cloud-controller-manager 的一个控制器初始化这个节点后,kubelet 将删除这个污点。

容忍度

一个 node 可以设置污点,排斥 pod,但是 pod 也可以设置 容忍度,容忍 node 的污点。

tolerations:
- key: "key1"
operator: "Exists"
effect: "NoSchedule"

也可以设置 value。

tolerations:
- key: "key1"
operator: "Equal"
value: "value1"
effect: "NoSchedule"

operator 的默认值是 Equal

一个容忍度和一个污点相“匹配”是指它们有一样的键名和效果,并且:

  • 如果 operatorExists

    此时容忍度不能指定 value,如果存在 key 为 key1 的 label,且污点效果为 NoSchedule,则容忍。

  • 如果 operatorEqual ,则它们的 value 应该相等

如果 effect 留空,则表示只要是 label 为 key1 的节点,都可以容忍。

如果:

tolerations:
operator: "Exists"

则表示此 pod 能够容忍任意的污点,无论 node 怎么设置 keyvalueeffect ,此 pod 都不会介意。

如果要在 master 上也能部署 pod,则可以修改 pod 的容忍度:

    spec:
tolerations:
# this toleration is to have the daemonset runnable on master nodes
# remove it if your masters can't run pods
- key: node-role.kubernetes.io/master
effect: NoSchedule

DaemonSet

在 Kubernetes 中,有三个 -Set ,分别是 ReplicaSet、DaemonSet、StatefulSets。而 负载类型有 Deployments、ReplicaSet、DaemonSet、StatefulSets等(或者说有这几个控制器)。

前面已经介绍过 Deployments ,而 kind: ReplicaSet 一般是没必要的,可以在 kind: Deployment 加上 replicas:

kind: DaemonSet 需要使用一个 yaml 来描述,但是整体跟 Deployment 一样。

DaemonSet 可以确保一个节点只运行一个 Pod 副本,假如有个 nginx 的 pod,当新的 Node 加入集群时,会自动在这个 Node 上部署一个 pod;当节点从集群中移开时,这个 Node 上的 Pod 会被回收;如果 DaemontSet 配置被删除,则也会删除所有由它创建的 Pod。

DaemonSet 的一些典型用法:

  • 在每个节点上运行集群守护进程
  • 在每个节点上运行日志收集守护进程
  • 在每个节点上运行监控守护进程

在 yaml 中,要配置 Daemont,可以使用 tolerations,配置示例:

kind: DaemontSet
... ...

其它地方跟 Deployment 一致。

浅入Kubernetes(10):控制节点的部署,选择器、亲和性、污点的更多相关文章

  1. 浅入Kubernetes(6):CKAD认证中的部署教程

    目录 预设网络 kubeadm 安装 k8s 配置 calico 自动补全工具 状态描述 目前为止,笔者已经写了 5 篇关于 k8s 的文章,这一篇笔者将介绍 CKAD 认证官方课程中,如何部署 k8 ...

  2. 浅入Kubernetes(11):了解 Service 和 Endpoint

    目录 Srevice Service 的创建及现象 Service 定义 Endpoint slices 创建 Endpoint.Service Service 创建应用 创建 Endpoint 浅入 ...

  3. 浅入Kubernetes(8):外网访问集群

    目录 查询 Service Service 外部服务类型 配置 ServiceType 伸缩数量 阶段总结 在前面几篇文章中,我们学习了 kubeadm .kubectl 的一些命令,也学会了 Dep ...

  4. OpenStack-Ocata版+CentOS7.6 云平台环境搭建 — 5.在控制节点上部署计算服务Nova

    计算服务Nova使用OpenStack Compute来托管和管理云计算系统. OpenStack Compute是基础架构即服务(IaaS)系统的主要部分. 主要模块用Python实现.OpenSt ...

  5. 浅入Kubernetes(7):应用部署实例,Deployment、Service、ReplicaSet

    目录 Deployment 创建 Deployment kubectl apply/create 网络端口映射和更新 Deployment ReplicaSet 在本文之前,你需要阅读: 尝试 kub ...

  6. 浅入kubernetes(2):Kubernetes 的组成

    目录 说明 Kubernetes集群的组成 What are containerized applications? What are Kubernetes containers? What are ...

  7. 浅入Kubernetes(12):Deployment 的升级、回滚

    目录 更新 上线 会滚 缩放 Deployment 直接设置 Pod 水平自动缩放 比例缩放 暂停 Deployment 上线 本篇内容讨论 Pod 的更新和回滚,内容不多. 更新 打开 https: ...

  8. 浅入kubernetes(1):Kubernetes 入门基础

    目录 Kubernetes 入门基础 Introduction basic of kubernetes What Is Kubernetes? Components of Kubernetes Kub ...

  9. 浅入kubernetes(5):尝试kubeadm

    本篇介绍利用 kubernetes 的命令行工具,快速创建集群实例,完成 hello world 实践. 上一篇试用 minikube 去搭建集群,这一篇将介绍通过 kubeadm 去操作. 命令行工 ...

随机推荐

  1. 移动端时间回显iphone出现的问题

    new Date(item.startTime.replace(/-/g, '/') dateFormat('hh:mm', new Date(item.startTime.replace(/-/g, ...

  2. 为什么ConcurrentHashMap,HashTable不支持key,value为null?

    ConcurrentHashmap.HashMap和Hashtable都是key-value存储结构,但他们有一个不同点是 ConcurrentHashmap.Hashtable不支持key或者val ...

  3. 微信小程序:单选框radio和复选框CheckBox

    单选框radio: 可以通过color属性来修改颜色. 复选框checkbox:

  4. Java基础语法:数组

    一.简介 描述: 数组是相同类型数据的有序集合. 其中,每一个数据称作一个数组元素,每个数组元素可以通过一个下标来访问它们. 基本特点: 数组的长度是确定的.数组一旦被创建,它的大小就是不可以改变的. ...

  5. Go的切片

    目录 切片 一.切片的创建 1.先创建数组,再引用 二.切片的修改 三.切片的长度和容量 四.使用make创建切片 五.切片的修改和追加 1.修改 2.追加:append 六.切片的函数传值 七.多维 ...

  6. Python 学习笔记(2)

    python 引号 Python 可以使用引号( ' ).双引号( " ).三引号( ''' 或 """ ) 来表示字符串,引号的开始与结束必须是相同类型的. ...

  7. Hive 填坑指南

    Hive 填坑指南 目录 Hive 填坑指南 数据表备份 数据表备份 方法1:create table 表名_new as select * from 原表 create table 表名_new a ...

  8. C++入门(1):计算机组成

    系列文章尽在 | 公众号:lunvey 学习C++之前,我们有必要了解一下计算机的简单组成,毕竟C++是需要操作内存的一门语言.大家或许知道内存是什么,但是内存怎么读取和操作数据以及数据的表现形式会不 ...

  9. powerdesigner 16.6破解版下载,支持hive,数据模型hql导出

    powerdesigner 16是一款业内领先的建模工具,是一款开发人员常用的数据库建模工具. 在大数据数据仓库建设过程中,离线数仓往往以hive为基础,但数仓建模过程中老版本不支持hive,这个模型 ...

  10. 使用syncthing和蒲公英异地组网零成本实现多设备实时同步

    设想一个场景,如果两台电脑之间可以共享一个文件夹,其中一个增删更改其中的内容时,另一个也能同步更新,而且速度不能太慢,最好是免费的.那么syncthing就可以满足这个要求.syncthing可以实现 ...