- 主题:raid5掉了俩盘,万幸没丢数据
6个600g的sas盘组raid5
长期跑,也没管
周五突然发现服务器连不上了,ping还通
到bmc上去看,居然俩盘掉了,难怪
赶紧给机器下电,网上买了俩二手600g sas盘
今天到机房开机进raid控制器,俩盘确实掉了
但是,只有一块盘亮红灯,其余的都绿灯
于是,把亮红的那个盘拔掉,把另一个掉的盘强制上线
居然raid起来了
装的是xenserver7.5,进系统一看,报错。。这也是意料之中的事情
看了下错误信息,发现sda5那个盘挂不上去,幸好那个盘只是挂到了/var/log下
于是,在fstab下把那个注释,重启,顺利进了系统
进系统后,再fsck /dev/sda5,点一堆y后挂载,一切正常
赶紧把买的好盘插进去,重启后提示rebuild
看来一切正常了
进虚拟机系统,所有vm都能正常启动,也没发现数据丢失。
真是万幸!!
--
FROM 202.98.17.*
硬盘自我用电脑开始坏过不下三十块了,这玩意现在质量越来越差。
SSD还没用坏过,不过将来QLC普及之后不容乐观。
--
FROM 171.221.29.*
希捷600g的sas 3.5寸盘,那批次的有缺陷
故障率非常高,换2.5寸的就好了
st360057ss这个系列吧。
但是,也有质量好的,服务器上7x24跑十多年都好好的
总体来说,只要不遇到有缺陷的硬盘,坏硬盘的情况还是少吧
另外,机械盘即使坏了,还是有挽救的余地的
ssd要是坏了,想挽救就很难了
【 在 poocp (慢速随机指标) 的大作中提到: 】
: 硬盘自我用电脑开始坏过不下三十块了,这玩意现在质量越来越差。
: SSD还没用坏过,不过将来QLC普及之后不容乐观。
--
FROM 202.98.17.*
掉俩盘按说就毁了啊,为什么你的还能捞回来?
【 在 leeyc (巡山小校) 的大作中提到: 】
: 6个600g的sas盘组raid5
: 长期跑,也没管
: 周五突然发现服务器连不上了,ping还通
: ...................
--
FROM 113.108.77.*
我猜测,掉的2号盘只是逻辑错误,导致raid降级了
后来掉的5号盘是真坏了,不过,我的数据没写满,6个600g做了raid5,大概2.7t左右
我实际使用量也就60%
坏的那部分,或许正好在未使用的区域
5号盘掉的时候我立即就把机器下电了,避免了坏数据扩大化
通过这次事件,我写了个监控raid状态的脚本,自动让它每天8点执行一次
要是raid降级了就发邮件给我,我就能知道了
在raid降级的时候马上就处理,一般是不会有啥问题的。
【 在 JulyClyde (我的月份又来了) 的大作中提到: 】
: 掉俩盘按说就毁了啊,为什么你的还能捞回来?
--
FROM 202.98.17.*
提供你一个SSD用坏的例子:
两周前我的INTEL SSD D3-4510 2TB硬盘突然挂了,系统自动只读挂载了
【 在 poocp (慢速随机指标) 的大作中提到: 】
: 硬盘自我用电脑开始坏过不下三十块了,这玩意现在质量越来越差。
: SSD还没用坏过,不过将来QLC普及之后不容乐观。
--
FROM 159.226.171.*
牛,幸亏没用stripe。
【 在 leeyc (巡山小校) 的大作中提到: 】
: 6个600g的sas盘组raid5
: 长期跑,也没管
: 周五突然发现服务器连不上了,ping还通
: 到bmc上去看,居然俩盘掉了,难怪
--
FROM 115.171.23.*
具体到服务器上的盘,其实和后面的服务器厂商或者他们的供应商的能力也有关系。
同一批硬盘,在某个厂家某一批服务器上,就容易坏,另外的厂家另外一批服务器上,
就不容易坏。
硬盘是否容易坏,不单单是看硬盘本身。
【 在 leeyc (巡山小校) 的大作中提到: 】
: 希捷600g的sas 3.5寸盘,那批次的有缺陷
: 故障率非常高,换2.5寸的就好了
: st360057ss这个系列吧。
: 但是,也有质量好的,服务器上7x24跑十多年都好好的
: 总体来说,只要不遇到有缺陷的硬盘,坏硬盘的情况还是少吧
: 另外,机械盘即使坏了,还是有挽救的余地的
: ssd要是坏了,想挽救就很难了
--
FROM 210.162.8.*
这种情况并不罕见,盘掉了相当于raid状态是FAIL了,数据不可访问(可认为
是保留了现场),能ping通的都是内存里的。
如果offline那块盘数据是完好的,force online之后是没问题的。
相当于raid5只坏了一块盘。
【 在 JulyClyde (我的月份又来了) 的大作中提到: 】
: 掉俩盘按说就毁了啊,为什么你的还能捞回来?
--
FROM 210.162.8.*
嗯,我曾经英明的指出过DELL的一个硬盘固件版本有问题
然后他们出了新版本,我刷不上(刷新脚本判断机型R7?0,我的是R7?0xd)
【 在 hyoga (白鸟·没见过猪跑,还没吃过猪肉吗?) 的大作中提到: 】
: 具体到服务器上的盘,其实和后面的服务器厂商或者他们的供应商的能力也有关系。
: 同一批硬盘,在某个厂家某一批服务器上,就容易坏,另外的厂家另外一批服务器上,
: 就不容易坏。
: ...................
--
FROM 113.108.77.*