[原]记一起EMC CX4120磁盘阵列故障

6月11日中午无意中发现一台EMC CX4-120磁盘阵列故障灯不停地闪,使用EMC产品也挺长时间了,稳定性还是很令人称道的,3年内就坏过两块硬盘,有RAID和HotSpare的保护,问题也不大。

说起来有意思,EMC装硬盘备件的箱子还相当厚道的:

20100609444

箱子里面装的是一个3.5寸的SAS硬盘,保护层非常巨大,完全可以用“浪费”来形容。

20100609448

20100609449

近段时间打算为一些旧服务器买续保服务,其中一台联想服务器也在计划之列,询问之下竟然不能买,原因竟然是没有备件,无奈啊,无奈啊。

扯远了,言归正传,EMC CX4-120的故障表现为“机头”后面没有使用的iSCSI模块故障灯亮起,一个控制器无法连接,在主机上使用命令( powermt display dev=all ),查看链路状态发现两条路中的一条路“dead”,另一条路“alive”,从以上的症状来看最大的问题是控制器挂掉了。

dell_10bge

从网上借用一幅图来说名,EMC CX-4的“前端”接口是很模块化的,扩展性很好。

EMC工程到现场更换了这个模块,但是工作灯不亮,于是热插拔已经挂掉控制器对应的电源/风扇模块,令挂掉的控制器重启,故障随即恢复。

image

EMC工程的解析是iSCSI模块损坏导致对应的控制器挂掉了,幸好当时买的时候是双控制器,故障出现后一点感觉都没有,这就是舍得投入的回报啊。不过比较纳闷的是iSCSI模块损坏不应导致控制器挂掉啊,否则热添加模块就不太现实了。

由于没有对业务系统产生影响,这个技术问题就不了了之咯。

趁EMC工程师不注意特别拍了几张损坏了的iSCSI模块的照片,用料扎实,做工细致:

20100612452

20100612453

20100612451

20100612456

Made In China 的哦 ^_^

原文地址:https://www.cnblogs.com/killkill/p/1757661.html