Kubernetes使用节点污点和pod容忍度阻止节点调度到特定节点

  Kubernetes允许你去影响pod被调度到哪个节点。起初,只能通过在pod规范里指定节点选择器来实现,后面其他的机制逐渐加入来扩容这项功能,本章将包括这些内容。

  现在要介绍的高级调度的两个特性是节点污点,以及pod对于污点的容忍度,这些特性被用于限制哪些pod可以被调度到某一个节点。只有当一个pod容忍某个节点的污点,这个pod才能被调度到该节点。

  这与使用节点选择器和节点亲缘性有些许不同,节点选择器和节点亲缘性规则,是通过明确的在pod中添加的信息,来决定一个pod可以或者不可以被调度到哪些节点上。而污点则是在不修改已有pod信息的前提下,通过在节点上添加污点信息,来拒绝pod在某些节点上的部署。

 

1.介绍污点和容忍度

  学习节点污点的最佳路径就是看一个己有的污点。默认情况下,这样一个集群中的主节点需要设置污点,这样才能保证只有控制面板pod才能部署在主节点上。

  显示节点的污点信息

  可以通过kubectl describe node查看节点的污点信息,如以下代码所示。

#代码16.1显示通过kubeadm创建的集群中的主节点信息
$ kubectl describe node master.k8s
Name:         master.k8s
Role:
Labels:       beta.kubernetes.io/arch=amd64
              beta.kubernetes.io/os=linux
              kubernetes.io/hostname=master.k8s
              node-role.kubernetes.io/master=
Annotations:  node.alpha.kubernetes.io/ttl=0
              volumes.kubernetes.io/controller-managed-attach-detach=true
Taints:       node-role.kubernetes.io/master:NoSchedule                    #主节点包含一个污点
...

  主节点包含一个污点,污点包含了一个key,value,以及一个effect,表现为<key>=<value>:<effect>。上面显示的主节点的污点信息,包含一个为node-role.kubernetes.io/master的key,一个空的value,以及值为NoSchedule的effect。

  这个污点将阻止pod调度到这个节点上面,除非有pod能容忍这个污点,而通常容忍这个污点的pod都是系统级别pod(见图16.1)。

  显示pod的污点容忍度

  在一个通过kubeadm初始化的集群中,kube-proxy集群组件以pod的形式运行在每个节点上,其中也包括主节点。因为以pod形式运行的主节点组件同时也需要访问Kubernetes服务。为了确保kube-proxy pod也能够运行在主节点上,该pod需要添加相应的污点容忍度。该pod整体包含了3个污点容忍度,如以下代码所示。

#代码16.2 一个pod的污点容忍度
$ kubectl describe po kube-proxy-80wqm -n kube-system
...
Tolerations:    node-role.kubernetes.io/master=:NoSchedule
                node.alpha.kubernetes.io/notReady=:Exists:NoExecute
                node.alpha.kubernetes.io/unreachable=:Exists:NoExecute
...

  如你所见,第一个污点容忍度匹配了主节点的污点,表示允许这个kube-proxy pod被调度到主节点上。

  注意:尽管在pod的污点容忍度中显示了等号,但是在节点的污点信息中却没有。当污点或者污点容忍度中的value为null时,kubectl故意将污点和污点容忍度进行不同形式的显示。

  了解污点的效果

  另外两个在kube-proxy pod上的污点定义了当节点状态是没有ready或者是unreachable时,该pod允许运行在该节点多长时间(时间用秒来表示,这里没有显示,但是podYAML中可以看到)。这两个污点容忍度使用的效果是NoExecute而不是NoSchedule。

  每一个污点都可以关联一个效果,效果包含了以下三种:

    • NoSchedule表示如果pod没有容忍这些污点,pod则不能被调度到包含这些污点的节点上。
    • PreferNoSchedule是NoSchedule的一个宽松的版本,表示尽量阻止pod被调度到这个节点上,但是如果没有其他节点可以调度,pod依然会被调度到这个节点上。
    • NoExecute不同于NoSchedule以及PreferNoSchedule,后两者只在调度期间起作用,而NoExecute也会影响正在节点上运行着的pod。如果在一个节点上添加了NoExecute污点,那些在该节点上运行着的pod,如果没有容忍这个NoExecute污点,将会从这个节点去除。

 

2.在节点上添加自定义污点

  假设你有一个单独的Kubernetes集群,上面同时有生产环境和非生产环境的流量。其中最重要的一点是,非生产环境的pod不能运行在生产环境的节点上。可以通过在生产环境的节点上添加污点来满足这个要求,可以使用kubectl taint命令来添加污点:

$ kubectl taint node node1.k8s node-type=production:NoSchedule
node "node1.k8s" tainted

  这个命令添加了一个taint,其中,key为node-type, value为production,效果为NoSchedule。如果现在部署一个常规pod的多个副本,会发现没有一个pod被部署到添加了污点信息的节点上面,如以下代码清单所示。

#代码16.3 部署没有污点容忍度的pod
$ kubectl run test --image busybox --replicas 5 -- sleep 99999
deployment "test" created
$ kubectl get po -o wide
NAME                READY  STATUS    RESTARTS   AGE   IP          NODE
test-196686-46ngl   1/1    Running   0          12s   10.47.0.1   node2.k8s
test-196686-73p89   1/1    Running   0          12s   10.47.0.7   node2.k8s
test-196686-77280   1/1    Running   0          12s   10.47.0.6   node2.k8s
test-196686-h9m8f   1/1    Running   0          12s   10.47.0.5   node2.k8s
test-196686-p85ll   1/1    Running   0          12s   10.47.0.4   node2.k8s

  现在,没人能够随意地将pod部署到生产环境节点上了。

 

3.在pod上添加污点容忍度

  为了将生产环境pod部署到生成环境节点上,pod需要能容忍那些添加在节点上的污点。生产环境pod的清单里面需要增加以下的YAML代码片段。

#代码16.4 标记污点容忍度的生产环境部署:production-deployment.yaml
apiVersion: extensions/v1beta1
kind: Deployment
metadata:
  name: prod
spec:
  replicas: 5
  template:
    metadata:
      labels:
        app: prod
    spec:
    ...
      tolerations:
      - key: node-type                #此处的污点容忍度予许pod被调度到生产环境节点上
        operator: Equal
        value: production
        effect: NoSchedule

  如果运行了这个部署,将看到pod就会被调度到生产环境节点,如以下代码所示。

#代码16.5 包含污点容忍度的pod被调度到生产环境节点node1$ kubectl get po -o wide
NAME                READY  STATUS    RESTARTS   AGE   IP          NODE
prod-350605-1ph5h   0/1    Running   0          16s   10.44.0.3   node1.k8s
prod-350605-ctqcr   1/1    Running   0          16s   10.47.0.4   node2.k8s
prod-350605-f7pcc   0/1    Running   0          17s   10.44.0.6   node1.k8s
prod-350605-k7c8g   1/1    Running   0          17s   10.47.0.9   node2.k8s
prod-350605-rp1nv   0/1    Running   0          17s   10.44.0.4   node1.k8s

  生产环境pod也被调度到了非生产环境node2。为了防止这种情况发生,也需要在非生产环境的节点设置污点信息,例如node-type=non-production:NoSchedule。那么,也需要在非生产环境pod上添加了对应的污点容忍度。

 

4.了解污点和污点容忍度的使用场景

  节点可以拥有多个污点信息,而pod也可以有多个污点容忍度。正如你所见,污点可以只有一个key和一个效果,而不必设置value。污点容忍度可以通过设置Equal操作符Equal操作符来指定匹配的value(默认情况下的操作符),或者也可以通过设置Exists操作符来匹配污点的key。

  在调度时使用污点和容忍度

  污点可以用来组织新pod的调度(使用NoSchedule效果),或者定义非优先调度的节点(使用PreferNoSchedule效果),甚至是将已有的pod从当前节点剔除。

  可以用任何觉得合适的方式去设置污点和容忍度。例如,可以将一个集群分成多个部分,只允许开发团队将pod调度到他们特定的节点上。当你的部分节点提供了某种特殊硬件,并且只有部分pod需要使用到这些硬件的时候,也可以通过设置污点和容忍度的方式来实现。

  配置节点失效之后的pod重新调度最长等待时间

  也可以配置一个容忍度,用于当某个pod运行所在的节点变成unready或者unreachable状态时,Kubernetes可以等待该pod被调度到其他节点的最长等待时间。如果查看其中一个pod的容忍度信息,将看到两条容忍度信息,如以下代码所示。

#代码16.6 带有默认容忍度的pod
$ kubectl get po prod-350605-1ph5h -o yaml
  tolerations:
  - effect: NoExecute                          #该pod允许所在节点处于notReady状态为300秒,之后pod将被重新调度
    key: node.alpha.kubernetes.io/notReady 
    operator: Exists 
    tolerationSeconds: 300 
  - effect: NoExecute         #同样的配置应用于节点处理unreachable状态
    key: node.alpha.kubernetes.io/unreachable 
    operator: Exists 
    tolerationSeconds: 300

  这两个容忍度表示,该pod将容忍所在节点处于notReady或者unreachable状态维持300秒。当Kubernetes控制器检测到有节点处于notReady或者unreachable状态时,将会等待300秒,如果状态持续的话,之后将把该pod重新调度到其他节点上。

  当没有定义这两个容忍度时,他们会自动添加到pod上。如果你觉得对于你的pod来说,5分钟太长的话,可以在pod描述中显式地将这两个容忍度设置得更短一些。

  注意:在1.8之前这是一个alpha阶段的特性,在未来的Kubernetes版本中可能会有所改变。基于污点信息的pod剔除也不是默认启用的,如果要启用这个特性,需要在运行控制器管理器时使用--feature-gates=TaintBasedEvictions=true选项。

 

5.小结

  污点可以让pod远离特定的节点。污点就是在不修改已有pod信息的前提下,通过在节点上添加污点信息,来拒绝pod在某些节点上的部署。

作者:小家电维修

相见有时,后会无期。

原文地址:https://www.cnblogs.com/lizexiong/p/14823290.html