记一次dell服务器内存告警故障

起因:

      公司新采购了一批DDR 2666MHZ 内存使用到线上,机房运维小A负载扩容内存到一批DELL R740xd 服务器上。这是一个简单的工作,体力为主。刚刚吃完午饭接到项目组电话,催我回来处理大问题。一台服务器内存持续告警,查不到原因,明天上午就要交给业务组使用了,今天还没有故障清零

询问操作:

      1. 新采购内存有一个报废件,在内存卡槽B3 B4 上试了两次无法开机

      2. 更换新内存条后,在内存卡槽B4 正常开机并进入IDRAC 清理了系统日志,重启了idrac racadm reset cold
      3. 发现dell_exporter 内存告警持续处在。关机调整内存到B3卡槽 开机后复现问题

      4. 内存压测后 主机内存持续95% 10分钟无故障点

解决问题:

      dell_exporter  使用omreport 来收集服务器信息。 

omreport chassis
Health

Main System Chassis

SEVERITY : COMPONENT
Ok       : Fans
Ok       : Intrusion
Critical : Memory
Ok       : Power Supplies
Ok       : Power Management
Ok       : Processors
Ok       : Temperatures
Ok       : Voltages
Ok       : Hardware Log
Ok       : Batteries

    问题在这里 om 中记录了一份内存错误日志信息也要清除

dcicfg  command=clearmemfailures
Clearing failures using mask: 524287
A1: ok
A3: ok
B1: ok
B3: ok



omreport chassis 
Health

Main System Chassis

SEVERITY : COMPONENT
Ok       : Fans
Ok       : Intrusion
Ok       : Memory
Ok       : Power Supplies
Ok       : Power Management
Ok       : Processors
Ok       : Temperatures
Ok       : Voltages
Ok       : Hardware Log
Ok       : Batteries

解决问题 ,赶紧撤了回家还得肝原神哪

    

原文地址:https://www.cnblogs.com/leleyao/p/15721367.html