另类 k8s 集群灾难恢复方法：用 master 服务器镜像恢复出新集群

我们的生产环境 kubernetes 集群是用阿里云服务器自己搭建的高可用集群（详见之前的博文），这篇博文记录的是如何通过已有集群的1台 master 服务器的阿里云ECS镜像恢复出同样配置的新集群，kubernetes 版本是 1.17.0。

这台 master 服务器的主机名是 k8s-master0，IP地址是 10.0.1.81。

首先对 k8s-master0 服务器打快照并生成镜像，用这个镜像创建新的服务器，新服务器的 hostname 也要用 k8s-master0（如果要换主机名，参考博文），新服务器 IP 地址为10.0.9.171。

通过镜像创建新集群主要面临的是 IP 地址变化带来的问题，为了解决这个问题，需要进行以下几个操作：

1）替换 /etc/kubernetes 中与 IP 地址关联的配置

oldip=10.0.1.81
newip=10.0.9.171
cd /etc/kubernetes

find . -type f | xargs grep $oldip
find . -type f | xargs sed -i "s/$oldip/$newip/"
find . -type f | xargs grep $newip

2）给 etcd 启动命令添加参数

打开 /etc/kubernetes/manifests/etcd.yaml，给command 添加

--initial-cluster-state=new
--force-new-cluster

3）通过 iptables 将旧 IP 地址映射到新 IP 地址

iptables -t nat -A OUTPUT -d 10.0.1.81 -j DNAT --to-destination 10.0.9.171

4）修改 /etc/hosts 中涉及旧 IP 地址的解析（如果有）

vim /etc/hosts
%s/10.0.1.81/10.0.9.171

5）修改集群配置与旧 IP 地址相关的配置

kubectl -n kube-system edit cm kubeadm-config 
%s/10.0.1.81/10.0.9.171

修改好 IP 地址之后，重新生成 etcd-server 证书（这个证书与IP地址关联）

cd /etc/kubernetes/pki/etcd
rm server.crt server.key
kubeadm init phase certs etcd-server

更新当前用户的 .kube/config

cp -i /etc/kubernetes/admin.conf $HOME/.kube/config

重启 kubelet 与 docker 服务之后集群就可以恢复

systemctl restart kubelet && systemctl restart docker

这时通过 kubectl get nodes 命令可以看到 k8s-master0 处于 Ready 状态（注：如果新 master 服务器使用的是不同的主机名，k8s-master0 会显示 NotReady）

接着去掉之前在 /etc/kubernetes/manifests/etcd.yaml 中给 etcd 启动命令添加的参数（需要重启 kubelet 与 docker 服务使修改生效）

--initial-cluster-state=new
--force-new-cluster

最后生成 node 加入集群的命令

$ kubeadm token create --print-join-command

通过新生成的命令加入新的 node

kubeadm join k8s-api:6443 --token ***** --discovery-token-ca-cert-hash *****

并删除所有旧的 NotReady 状态的 node

kubectl delete node $(kubectl get nodes | grep NotReady | cut -d " " -f1)

就大功告成了！

后续博文：

修改 kubernetes master 主机名（hostname）与节点名称（node name）

参考资料：

Changing master IP address