因为你这个架构把ZFS最大的优势给弄没了
对ZFS来说,他只能看到RAID卡给他的逻辑盘,而不是一块一块的物理盘
它认为那块逻辑盘就是它最底层的“物理”磁盘,因此对整个逻辑盘的检测、告警、
自动修复,都没有意义了。
而对于硬RAID本身来说(尤其是RAID6),其实是会有很多问题被隐藏起来的。
比如,甚至,磁盘有表面错误,在RAID卡层面都不一定能及时发现。
因为他的纠错机制会“忽略”掉(某些)这类错误。让上层认为数据仍然是完好的。
给你的建议:
1)如果还想继续使用这一套东西,建议找一下DELL官方的工具,建立一套完善的
监控、告警机制(主流OS都会有的,你的ocean是linux吧?那也必然会有)
2)非常非常强烈建议你重建系统,如果你仍然想保留RAID卡,可以将每块盘作RAID0
直通给ZFS,或者更理想的做法是刷IT固件“真正”将磁盘直通给ZFS。
【 在 ttaudi 的大作中提到: 】
: 我用R730的硬raid组了一个6盘的raid6,然后格式化成zfs文件系统ocean,用来存虚拟机qcow2文件,一直运行得很好。但是昨天发现上面的虚拟机都出问题了,全部都卡死,于是把虚拟机全部停了。
: 怀疑是qcow2文件损坏,于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题,不能工作,于是检查MD5,结果发现从snapshot里面直接cp qcow2文件,MD5值与源文件不一致。然后用rsync来复制qcow2文件,MD5值与源文件又是一样的。
: 这个时候怀疑是硬盘损坏了,可是检查了硬盘的smart,还有进入到Drac查看硬盘状态和log,都没有发现错误。
: ...................
--
FROM 202.226.61.*