公司的Dell R720XD服务器是用来做Hadoop大数据的。

其中有两块300G的硬盘做Raid1,作为系统盘。

剩下3块硬盘是4TB,都是独立的,没有做任何Raid,单独做数据盘。

但是,所有的硬盘都被 Dell H330 的Raid控制器控制,于是3块硬盘呢,其实每个都是个 Raid0

去机房巡检的过程中,发现一个硬盘亮黄灯。

从idrac口可以看到坏了个硬盘

alt

三块,到底是哪块坏了呢?

注意上图,修订是:GS0F,序列号是:Z1Z83DXH

我了个擦,所有硬盘都被h330接管,所以lspci什么也看不出来,只能看出是个lsi的MegaRAID!!!

lspci|grep Mega  
02:00.0 RAID bus controller: LSI Logic / Symbios Logic MegaRAID SAS-3 3008 [Fury] (rev 02)  

没办法,先去下个MegaCLI吧

wget http://www.rendoumi.com/soft/MegaCli-8.07.14-1.noarch.rpm  
rpm -qpl MegaCli-8.07.14-1.noarch.rpm  
rpm -ivh MegaCli-8.07.14-1.noarch.rpm  

再下个python

wget http://www.rendoumi.com/soft/mega-status.py  
chmod 755 mega-status.py  
./mega-status.py

注意这个脚本是引用了64位的megacli

def_megaclipath = "/opt/MegaRAID/MegaCli/MegaCli64"  

看运行结果啊

这里把修订和序列号连在一起了: GS0FZ1Z83DXH 对应c0u2p0,对应上面的c0u2,对应右边的/dev/sdc

所以是/dev/sdc坏掉了。

搞定。

这样就可以先卸载/dev/sdc,然后换盘了。

comments powered by Disqus