Rook Ceph出现daemons have recently crashed异常

某天突然ceph发出警告提示daemons have recently crashed,而且数目在不断增加,然并没有找到相关的错误目志。官方文挡有提示:一个或多个Ceph守护进程最近崩溃可能是软件或硬件(例如,磁盘故障)导致

解决办法

1、进入tool box容器

kubectl -n rook-ceph exec -it $(kubectl -n rook-ceph get pod -l "app=rook-ceph-tools" -o jsonpath='{.items[0].metadata.name}') bash

2、查询最新crashed信息

ceph crash ls-new

image

3、根据crash id查询异常详细

ceph crash info 2020-11-04T06:52:21.400120Z_b05699eb-0973-457b-8409-3f3322998685

image

已经可以看到错误信息了,但是只能通过kernel log查询问题了。

4、登录osd.2节点服务器,查询kernel log

dmesg

image

好吧,一堆飘红,基本上可以确认是硬盘问题了,做磁盘扫描坏道处理或换硬盘吧。

5、将crash清空,恢复ceph群集状态

#批量清除crash
ceph crash archive-all
#也可以根据id清除单个crash
ceph crash archive <crash-id>
原文地址:https://www.cnblogs.com/lswweb/p/13948368.html