一次master节点notReady的修复过程

这天打开电脑,发现master节点的状态异常,是notReady状态。其他计算机点还好时Ready状态。

检查etcd集群状态

首先通过命令etcdctl member list确认etcd集群是OK的。

检查master节点各个进程状态

这时检查master节点上的各个kube相关进程都在. 但通过systemctl status kubelet,kubelet的的进程显示如下:


于是重启kube-proxy和kubelet,查看进程状态正常。但奇怪的是过了一会kubelet状态又异常了。这时我使用命令 kubectl delete node k8s-master删除了这个master-node.但是这个node一直注册不到集群中。
这时查看kubelet的log文件显示如下:

因此可以判定是认证文件出了问题。

检查证书

首先通过命令 kubectl get cs查看获取集群状态,显示如下:

使用命令kubectl get csr查看证书状态,显示如下:

使用命令kubectl certificate approve node-csr-qwDqWMuffouPtl2DIqz8NN3cB9R-DvBg_ULg6mYrEKUapprove CSR 请求,最后重启kubelet就可以了。但因为之前把这个节点删除了,所以需要给这个节点打上所需要的label.

原文地址:https://www.cnblogs.com/janeysj/p/12320954.html