- 主题:[求助]一个奇怪的zfs问题
我用R730的硬raid组了一个6盘的raid6,然后格式化成zfs文件系统ocean,用来存虚拟机qcow2文件,一直运行得很好。但是昨天发现上面的虚拟机都出问题了,全部都卡死,于是把虚拟机全部停了。
怀疑是qcow2文件损坏,于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题,不能工作,于是检查MD5,结果发现从snapshot里面直接cp qcow2文件,MD5值与源文件不一致。然后用rsync来复制qcow2文件,MD5值与源文件又是一样的。
这个时候怀疑是硬盘损坏了,可是检查了硬盘的smart,还有进入到Drac查看硬盘状态和log,都没有发现错误。
运行两次zpool scrub ocean,zpool status也没有报错误。
这个现象太奇怪了,请大家帮忙看看这是什么问题。
--
FROM 120.229.204.*
dmesg 有没有输出什么信息?
【 在 ttaudi 的大作中提到: 】
: 我用R730的硬raid组了一个6盘的raid6,然后格式化成zfs文件系统ocean,用来存虚拟机qcow2文件,一直运行得很好。但是昨天发现上面的虚拟机都出问题了,全部都卡死,于是把虚拟机全部停了。
: 怀疑是qcow2文件损坏,于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题,不能工作,于是检查MD5,结果发现从snapshot里面直接cp qcow2文件,MD5值与源文件不一致。然后用rsync来复制qcow2文件,MD5值与源文件又是一样的。
: 这个时候怀疑是硬盘损坏了,可是检查了硬盘的smart,还有进入到Drac查看硬盘状态和log,都没有发现错误。
: ...................
--
FROM 59.61.208.*
报错误了,好像这个说是硬盘坏了,可是smart和raid卡都没有报错
11284 2025-12-28T12:16:36.296027+08:00 localhost zed[2485]: Missed 30 events
11285 2025-12-28T12:16:36.297088+08:00 localhost zed[2485]: Bumping queue length to 1024
11286 2025-12-28T12:16:36.307910+08:00 localhost zed: eid=13 class=deadman pool='ocean' vdev=scsi-36d09466088ac59002cdbc25c6652082d-part1 size=94208 offset=6239325900800 priority=3 err=0 flags=0x304080 bookmark=272:521:0:52398
【 在 hgoldfish 的大作中提到: 】
: dmesg 有没有输出什么信息?
:
--
FROM 120.229.204.*
是不是不能用cp拷贝snapshot里面的文件,还有这样的告警:
2025-12-28T01:09:50.631518+08:00 localhost systemd[1]: ocean-qemu-.zfs-snapshot-251225000001.mount: Deactivated successfully.
--
FROM 120.229.204.*
Dell的硬RAID要求挺严格的,不太会有错不报。你再查查看?或者问问AI,AI挺懂这个的,以俺的体会。
【 在 ttaudi 的大作中提到: 】
: 报错误了,好像这个说是硬盘坏了,可是smart和raid卡都没有报错
: [code=text]
: 11284 2025-12-28T12:16:36.296027+08:00 localhost zed[2485]: Missed 30 events
: ...................
--
FROM 183.194.72.*
虽然不用ZFS但天天用Dell R系列
没太理解的是,zfs为啥要跑在hardware raid上,是有啥特殊需求这样设计最容易满足么?
【 在 ttaudi 的大作中提到: 】
: 我用R730的硬raid组了一个6盘的raid6,然后格式化成zfs文件系统ocean,用来存虚拟机qcow2文件,一直运行得很好。但是昨天发现上面的虚拟机都出问题了,全部都卡死,于是把虚拟机全部停了。
: 怀疑是qcow2文件损坏,于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题,不能工作,于是检查MD5,结果发现从snapshot里面直接cp qcow2文件,MD5值与源文件不一致。然后用rsync来复制qcow2文件,MD5值与源文件又是一样的。
: 这个时候怀疑是硬盘损坏了,可是检查了硬盘的smart,还有进入到Drac查看硬盘状态和log,都没有发现错误。
: ...................
--
FROM 61.48.132.*
不推荐在硬raid上跑zfs
原因找个ai问问吧
【 在 ttaudi 的大作中提到: 】
: 我用R730的硬raid组了一个6盘的raid6,然后格式化成zfs文件系统ocean,用来存虚拟机qcow2文件,一直运行得很好。但是昨天发现上面的虚拟机都出问题了,全部都卡死,于是把虚拟机全部停了。
: 怀疑是qcow2文件损坏,于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题,不能工作,于是检查MD5,结果发现从snapshot里面直接cp qcow2文件,MD5值与源文件不一致。然后用rsync来复制qcow2文件,MD5值与源文件又是一样的。
: 这个时候怀疑是硬盘损坏了,可是检查了硬盘的smart,还有进入到Drac查看硬盘状态和log,都没有发现错误。
: ...................
--
FROM 221.220.135.*
我问了AI,也给它看了好多报告,它说:
1. smart检查正常。
2. syslog出现的告警说是硬盘老化了,让我赶紧换硬盘。
3. zpool status看不到告警是因为这块硬盘并没有真的坏,必须坏了才会有告警。
【 在 creek 的大作中提到: 】
: Dell的硬RAID要求挺严格的,不太会有错不报。你再查查看?或者问问AI,AI挺懂这个的,以俺的体会。
:
--
FROM 59.40.8.*
当时不懂zfs有这样的限制,直接搞了个硬raid
【 在 KeepHope 的大作中提到: 】
: 虽然不用ZFS但天天用Dell R系列
: 没太理解的是,zfs为啥要跑在hardware raid上,是有啥特殊需求这样设计最容易满足么?
:
--
FROM 59.40.8.*
下回不在硬raid上跑ZFS了
【 在 FlawZero 的大作中提到: 】
: 不推荐在硬raid上跑zfs
: 原因找个ai问问吧
:
--
FROM 59.40.8.*