- 主题:raid5掉了俩盘,万幸没丢数据
6个600g的sas盘组raid5
长期跑,也没管
周五突然发现服务器连不上了,ping还通
到bmc上去看,居然俩盘掉了,难怪
赶紧给机器下电,网上买了俩二手600g sas盘
今天到机房开机进raid控制器,俩盘确实掉了
但是,只有一块盘亮红灯,其余的都绿灯
于是,把亮红的那个盘拔掉,把另一个掉的盘强制上线
居然raid起来了
装的是xenserver7.5,进系统一看,报错。。这也是意料之中的事情
看了下错误信息,发现sda5那个盘挂不上去,幸好那个盘只是挂到了/var/log下
于是,在fstab下把那个注释,重启,顺利进了系统
进系统后,再fsck /dev/sda5,点一堆y后挂载,一切正常
赶紧把买的好盘插进去,重启后提示rebuild
看来一切正常了
进虚拟机系统,所有vm都能正常启动,也没发现数据丢失。
真是万幸!!
--
FROM 202.98.17.*
希捷600g的sas 3.5寸盘,那批次的有缺陷
故障率非常高,换2.5寸的就好了
st360057ss这个系列吧。
但是,也有质量好的,服务器上7x24跑十多年都好好的
总体来说,只要不遇到有缺陷的硬盘,坏硬盘的情况还是少吧
另外,机械盘即使坏了,还是有挽救的余地的
ssd要是坏了,想挽救就很难了
【 在 poocp (慢速随机指标) 的大作中提到: 】
: 硬盘自我用电脑开始坏过不下三十块了,这玩意现在质量越来越差。
: SSD还没用坏过,不过将来QLC普及之后不容乐观。
--
FROM 202.98.17.*
我猜测,掉的2号盘只是逻辑错误,导致raid降级了
后来掉的5号盘是真坏了,不过,我的数据没写满,6个600g做了raid5,大概2.7t左右
我实际使用量也就60%
坏的那部分,或许正好在未使用的区域
5号盘掉的时候我立即就把机器下电了,避免了坏数据扩大化
通过这次事件,我写了个监控raid状态的脚本,自动让它每天8点执行一次
要是raid降级了就发邮件给我,我就能知道了
在raid降级的时候马上就处理,一般是不会有啥问题的。
【 在 JulyClyde (我的月份又来了) 的大作中提到: 】
: 掉俩盘按说就毁了啊,为什么你的还能捞回来?
--
FROM 202.98.17.*
关键,这个盘连oem好像都不是
盘体标签都还是希捷,厂商只在希捷的标签上又贴了一小块贴纸
这样的盘,厂商会专门定制自己的固件吗?
我感觉不太可能吧
这个st360057ss的盘,浪潮华为的服务器我都遇到过坏的
【 在 hyoga (白鸟·没见过猪跑,还没吃过猪肉吗?) 的大作中提到: 】
: 具体到服务器上的盘,其实和后面的服务器厂商或者他们的供应商的能力也有关系。
: 同一批硬盘,在某个厂家某一批服务器上,就容易坏,另外的厂家另外一批服务器上,
: 就不容易坏。
: ...................
--
FROM 202.98.17.*
嗯,大概应该就是这么个意思
【 在 hyoga (白鸟·没见过猪跑,还没吃过猪肉吗?) 的大作中提到: 】
: 这种情况并不罕见,盘掉了相当于raid状态是FAIL了,数据不可访问(可认为
: 是保留了现场),能ping通的都是内存里的。
: 如果offline那块盘数据是完好的,force online之后是没问题的。
: ...................
--
FROM 202.98.17.*
没具体看,大概2-6小时吧
看数据量大小吧
【 在 dgfu (群众) 的大作中提到: 】
: 请问一下,您这个重建要多长时间啊?
:
: 【 在 leeyc 的大作中提到: 】
: : 6个600g的sas盘组raid5
--
FROM 123.172.60.*
先要安一个raid卡的管理工具,lsi的raid卡工具是megacli
#!/bin/bash
#check raid disk status
megacli="/opt/MegaRAID/MegaCli/MegaCli64 "
STATUS=`$megacli -LDInfo -LALL -aAll|grep -i State | awk -F ': ' '{print $2}'`
#if [ $STATUS == "Degraded" ]; then
if [ $STATUS != "Optimal" ]; then
echo -e "Host : SERVER-xxx `$megacli -LDInfo -LALL -aAll|grep -i State` \n.\n" | mail -s 'Your Server RAID is DEGRADED!!' xxx@leeyc.com
fi
【 在 bittersmile 的大作中提到: 】
: 分享一下监控脚本?
:
--
FROM 202.98.17.*
你觉得我会写这么复杂的脚本吗?
哈哈
【 在 hyoga (白鸟·没见过猪跑,还没吃过猪肉吗?) 的大作中提到: 】
: 这个脚本咋看着这么眼熟 //:D
--
FROM 202.98.17.*
今天我把那个盘重新rebuild了一下
看了下rebuild进度,全部完成得10个小时
仅供参考
Coerced Size: 557.861 GB [0x45bb9000 Sectors]
Firmware state: Rebuild
Rebuild Progress on Device at Enclosure 14, Slot 5 Completed 24% in 126 Minutes.
【 在 dgfu (群众) 的大作中提到: 】
: 请问一下,您这个重建要多长时间啊?
: - 来自「最水木 for iPhone 11 Pro Max」
--
FROM 202.98.17.*
记得raid卡开写缓存哦
【 在 bittersmile (~smile~) 的大作中提到: 】
: 我今天刚搭的5x14T的raid5,SATA,18小时。
:
: 【 在 leeyc (巡山小校) 的大作中提到: 】
: : 今天我把那个盘重新rebuild了一下
--
FROM 36.104.39.*