ceph 集群 slow requests are blocked

最近在本机 vmware 中搭建 devops 环境时,使用 ceph rbd(StorageClass方式) 把 ceph 集成到 k8s 中去,

但是只要 pod 有读写,ceph 集群 health 状态就会报错:

[root@ceph01 ceph-cluster]# ceph -s
  cluster:
    id:     1ff59119-cfe3-43a3-acb5-e1e93f9963ab
    health: HEALTH_WARN
            4 osds down
            Long heartbeat ping times on back interface seen, longest is 75927.194 msec
            Long heartbeat ping times on front interface seen, longest is 73485.542 msec
            Reduced data availability: 77 pgs peering
            Degraded data redundancy: 11/1596 objects degraded (0.689%), 9 pgs degraded
            application not enabled on 1 pool(s)
            51 slow requests are blocked > 32 sec. Implicated osds 5,6,7,8,9,10,11,12,13,14
            clock skew detected on mon.ceph03

这时候,集群访问不正常,会非常慢,部分 osd 会被标记为 down,尝试从 luminous(12) 版本升级到 octopus(15) 版本,问题依旧。

让后尝试百度搜索报错 slow requests are blocked ,大多数答案都是重启 osd 进程解决,但是使用这种方法还是问题依旧。

依稀记得看了一篇文章(但是没有保存书签,找不到了)说可能跟集群网络有关,于是尝试把 public 和 cluster 网络合并:

ceph-deploy new ceph01 ceph02 ceph03 --cluster-network 10.10.20.0/24 --public-network
 10.10.10.0/24

变更为

ceph-deploy new ceph01 ceph02 ceph03 --cluster-network 10.10.10.0/24 --public-network 
10.10.10.0/24

神奇的事情发生了,居然问题解决了,具体原因未知,这里就做个记录吧。

原文地址:https://www.cnblogs.com/leffss/p/15669182.html