[求助]一个奇怪的zfs问题

水木社区手机版

主题:[求助]一个奇怪的zfs问题
楼主|ttaudi|2025-12-28 12:05:28|只看此ID
我用R730的硬raid组了一个6盘的raid6，然后格式化成zfs文件系统ocean，用来存虚拟机qcow2文件，一直运行得很好。但是昨天发现上面的虚拟机都出问题了，全部都卡死，于是把虚拟机全部停了。

怀疑是qcow2文件损坏，于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题，不能工作，于是检查MD5，结果发现从snapshot里面直接cp qcow2文件，MD5值与源文件不一致。然后用rsync来复制qcow2文件，MD5值与源文件又是一样的。

这个时候怀疑是硬盘损坏了，可是检查了硬盘的smart，还有进入到Drac查看硬盘状态和log，都没有发现错误。
运行两次zpool scrub ocean，zpool status也没有报错误。

这个现象太奇怪了，请大家帮忙看看这是什么问题。
--
FROM 120.229.204.*
1楼|hgoldfish|2025-12-28 15:25:24|只看此ID
dmesg 有没有输出什么信息？

【在 ttaudi 的大作中提到: 】
: 我用R730的硬raid组了一个6盘的raid6，然后格式化成zfs文件系统ocean，用来存虚拟机qcow2文件，一直运行得很好。但是昨天发现上面的虚拟机都出问题了，全部都卡死，于是把虚拟机全部停了。
: 怀疑是qcow2文件损坏，于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题，不能工作，于是检查MD5，结果发现从snapshot里面直接cp qcow2文件，MD5值与源文件不一致。然后用rsync来复制qcow2文件，MD5值与源文件又是一样的。
: 这个时候怀疑是硬盘损坏了，可是检查了硬盘的smart，还有进入到Drac查看硬盘状态和log，都没有发现错误。
: ...................
--
FROM 59.61.208.*

2楼|ttaudi|2025-12-29 01:16:36|只看此ID

报错误了，好像这个说是硬盘坏了，可是smart和raid卡都没有报错

11284 2025-12-28T12:16:36.296027+08:00 localhost zed[2485]: Missed 30 events                                                                                                                                                                                 
11285 2025-12-28T12:16:36.297088+08:00 localhost zed[2485]: Bumping queue length to 1024                                                                                                                                                                     
11286 2025-12-28T12:16:36.307910+08:00 localhost zed: eid=13 class=deadman pool='ocean' vdev=scsi-36d09466088ac59002cdbc25c6652082d-part1 size=94208 offset=6239325900800 priority=3 err=0 flags=0x304080 bookmark=272:521:0:52398

【在 hgoldfish 的大作中提到: 】
: dmesg 有没有输出什么信息？
:
--
FROM 120.229.204.*

3楼|ttaudi|2025-12-29 01:39:49|只看此ID
是不是不能用cp拷贝snapshot里面的文件，还有这样的告警：
```
2025-12-28T01:09:50.631518+08:00 localhost systemd[1]: ocean-qemu-.zfs-snapshot-251225000001.mount: Deactivated successfully.
```
--
FROM 120.229.204.*
4楼|creek|2025-12-29 10:50:35|只看此ID
Dell的硬RAID要求挺严格的，不太会有错不报。你再查查看？或者问问AI，AI挺懂这个的，以俺的体会。

【在 ttaudi 的大作中提到: 】
: 报错误了，好像这个说是硬盘坏了，可是smart和raid卡都没有报错
: [code=text]
: 11284 2025-12-28T12:16:36.296027+08:00 localhost zed[2485]: Missed 30 events
: ...................
--
FROM 183.194.72.*
5楼|KeepHope|2025-12-29 12:27:13|只看此ID
虽然不用ZFS但天天用Dell R系列
没太理解的是，zfs为啥要跑在hardware raid上，是有啥特殊需求这样设计最容易满足么？

【在 ttaudi 的大作中提到: 】
: 我用R730的硬raid组了一个6盘的raid6，然后格式化成zfs文件系统ocean，用来存虚拟机qcow2文件，一直运行得很好。但是昨天发现上面的虚拟机都出问题了，全部都卡死，于是把虚拟机全部停了。
: 怀疑是qcow2文件损坏，于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题，不能工作，于是检查MD5，结果发现从snapshot里面直接cp qcow2文件，MD5值与源文件不一致。然后用rsync来复制qcow2文件，MD5值与源文件又是一样的。
: 这个时候怀疑是硬盘损坏了，可是检查了硬盘的smart，还有进入到Drac查看硬盘状态和log，都没有发现错误。
: ...................
--
FROM 61.48.132.*
6楼|FlawZero|2025-12-29 14:33:44|只看此ID
不推荐在硬raid上跑zfs
原因找个ai问问吧

【在 ttaudi 的大作中提到: 】
: 我用R730的硬raid组了一个6盘的raid6，然后格式化成zfs文件系统ocean，用来存虚拟机qcow2文件，一直运行得很好。但是昨天发现上面的虚拟机都出问题了，全部都卡死，于是把虚拟机全部停了。
: 怀疑是qcow2文件损坏，于是打算从snapshot中copy之前的备份。但copy出来的文件老是有问题，不能工作，于是检查MD5，结果发现从snapshot里面直接cp qcow2文件，MD5值与源文件不一致。然后用rsync来复制qcow2文件，MD5值与源文件又是一样的。
: 这个时候怀疑是硬盘损坏了，可是检查了硬盘的smart，还有进入到Drac查看硬盘状态和log，都没有发现错误。
: ...................
--
FROM 221.220.135.*
7楼|ttaudi|2025-12-29 14:57:19|只看此ID
我问了AI，也给它看了好多报告，它说：
1. smart检查正常。
2. syslog出现的告警说是硬盘老化了，让我赶紧换硬盘。
3. zpool status看不到告警是因为这块硬盘并没有真的坏，必须坏了才会有告警。

【在 creek 的大作中提到: 】
: Dell的硬RAID要求挺严格的，不太会有错不报。你再查查看？或者问问AI，AI挺懂这个的，以俺的体会。
:
--
FROM 59.40.8.*
8楼|ttaudi|2025-12-29 14:58:34|只看此ID
当时不懂zfs有这样的限制，直接搞了个硬raid

【在 KeepHope 的大作中提到: 】
: 虽然不用ZFS但天天用Dell R系列
: 没太理解的是，zfs为啥要跑在hardware raid上，是有啥特殊需求这样设计最容易满足么？
:
--
FROM 59.40.8.*
9楼|ttaudi|2025-12-29 14:59:20|只看此ID
下回不在硬raid上跑ZFS了

【在 FlawZero 的大作中提到: 】
: 不推荐在硬raid上跑zfs
: 原因找个ai问问吧
:
--
FROM 59.40.8.*