ceph 集群 slow requests are blocked

最近在本机 vmware 中搭建 devops 环境时，使用 ceph rbd(StorageClass方式) 把 ceph 集成到 k8s 中去，

但是只要 pod 有读写，ceph 集群 health 状态就会报错：

[root@ceph01 ceph-cluster]# ceph -s
  cluster:
    id:     1ff59119-cfe3-43a3-acb5-e1e93f9963ab
    health: HEALTH_WARN
            4 osds down
            Long heartbeat ping times on back interface seen, longest is 75927.194 msec
            Long heartbeat ping times on front interface seen, longest is 73485.542 msec
            Reduced data availability: 77 pgs peering
            Degraded data redundancy: 11/1596 objects degraded (0.689%), 9 pgs degraded
            application not enabled on 1 pool(s)
            51 slow requests are blocked > 32 sec. Implicated osds 5,6,7,8,9,10,11,12,13,14
            clock skew detected on mon.ceph03

这时候，集群访问不正常，会非常慢，部分 osd 会被标记为 down，尝试从 luminous（12）版本升级到 octopus（15）版本，问题依旧。

让后尝试百度搜索报错 slow requests are blocked ，大多数答案都是重启 osd 进程解决，但是使用这种方法还是问题依旧。

依稀记得看了一篇文章（但是没有保存书签，找不到了）说可能跟集群网络有关，于是尝试把 public 和 cluster 网络合并：

ceph-deploy new ceph01 ceph02 ceph03 --cluster-network 10.10.20.0/24 --public-network
 10.10.10.0/24

变更为

ceph-deploy new ceph01 ceph02 ceph03 --cluster-network 10.10.10.0/24 --public-network 
10.10.10.0/24

神奇的事情发生了，居然问题解决了，具体原因未知，这里就做个记录吧。