- 主题:[求助]一个奇怪的zfs问题
你这情况明显是应该换个AI...
另外,checksum有问题,要么zpool status报错,要么八成是你checksum命令用错了
【 在 ttaudi 的大作中提到: 】
: 我问了AI,也给它看了好多报告,它说:
: 1. smart检查正常。
: 2. syslog出现的告警说是硬盘老化了,让我赶紧换硬盘。
: 3. zpool status看不到告警是因为这块硬盘并没有真的坏,必须坏了才会有告警。
--
FROM 1.202.9.*
问了AI,学习了。【牛】
【 在 FlawZero 的大作中提到: 】
: 不推荐在硬raid上跑zfs
: 原因找个ai问问吧
:
--
FROM 183.194.72.*
raid6 上面跑zfs?
感觉是raid6有毛病,在数据层把错误掩盖了,zfs检测不出来。
【 在 ttaudi 的大作中提到: 】
: 我用R730的硬raid组了一个6盘的raid6,然后格式化成zfs文件系统ocean,用来存虚拟机qcow2文件,一直运行得很好。但是昨天发现上面的虚拟机都出问题了,全部都卡死,于是把虚拟机全部停了。
: 怀疑是qcow2文件损坏,于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题,不能工作,于是检查MD5,结果发现从snapshot里面直接cp qcow2文件,MD5值与源文件不一致。然后用rsync来复制qcow2文件,MD5值与源文件又是一样的。
: 这个时候怀疑是硬盘损坏了,可是检查了硬盘的smart,还有进入到Drac查看硬盘状态和log,都没有发现错误。
: ...................
--
FROM 27.8.133.*
因为你这个架构把ZFS最大的优势给弄没了
对ZFS来说,他只能看到RAID卡给他的逻辑盘,而不是一块一块的物理盘
它认为那块逻辑盘就是它最底层的“物理”磁盘,因此对整个逻辑盘的检测、告警、
自动修复,都没有意义了。
而对于硬RAID本身来说(尤其是RAID6),其实是会有很多问题被隐藏起来的。
比如,甚至,磁盘有表面错误,在RAID卡层面都不一定能及时发现。
因为他的纠错机制会“忽略”掉(某些)这类错误。让上层认为数据仍然是完好的。
给你的建议:
1)如果还想继续使用这一套东西,建议找一下DELL官方的工具,建立一套完善的
监控、告警机制(主流OS都会有的,你的ocean是linux吧?那也必然会有)
2)非常非常强烈建议你重建系统,如果你仍然想保留RAID卡,可以将每块盘作RAID0
直通给ZFS,或者更理想的做法是刷IT固件“真正”将磁盘直通给ZFS。
【 在 ttaudi 的大作中提到: 】
: 我用R730的硬raid组了一个6盘的raid6,然后格式化成zfs文件系统ocean,用来存虚拟机qcow2文件,一直运行得很好。但是昨天发现上面的虚拟机都出问题了,全部都卡死,于是把虚拟机全部停了。
: 怀疑是qcow2文件损坏,于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题,不能工作,于是检查MD5,结果发现从snapshot里面直接cp qcow2文件,MD5值与源文件不一致。然后用rsync来复制qcow2文件,MD5值与源文件又是一样的。
: 这个时候怀疑是硬盘损坏了,可是检查了硬盘的smart,还有进入到Drac查看硬盘状态和log,都没有发现错误。
: ...................
--
FROM 202.226.61.*
ai味好重..
【 在 hyoga 的大作中提到: 】
: 因为你这个架构把ZFS最大的优势给弄没了
: 对ZFS来说,他只能看到RAID卡给他的逻辑盘,而不是一块一块的物理盘
: 它认为那块逻辑盘就是它最底层的“物理”磁盘,因此对整个逻辑盘的检测、告警、
: ...................
--
FROM 182.96.101.*
经你这么一说,我回头又看了一遍,还真是挺重
我反省,以后多注意
【 在 adamhj 的大作中提到: 】
: ai味好重..
--
FROM 202.226.61.*