- 主题:奇怪的pve虚拟机故障
用机房的三台x86 pc 服务器自己组了一个pve集群,刚开始都用得好好的.
有一台虚拟的win2008r2, 突然不能rdp远程了,打开console看打不开 .直接重启了虚拟
机,启动失败了.然后用winpe光盘启动进去看了一下硬盘, 发现好像c盘少了不少文件,难
怪启动不了,难道是黑客上来把文件删了,感觉又不太可能.
过了一段时间,一台hfish蜜罐的web页面打不开了,但是ssh还能登录上去,看到有不少zo
mbie进程, 但是reboot和shutdown都启动失败了. 就又去强制重启了一下,又进不去系
统了. 难道又被黑了?
想不明白怎么回事. 从pve界面上看,三台服务器运行了200来天,没有异常重启过.
唯一有点类似的情况,是两台虚拟机都运行在ceph的磁盘上,三台服务器硬盘空间相差比
较大,随意组了个ceph,ceph好像一直有warning的状态.
--
FROM 115.193.183.*
那就看看warning具体是啥啊
你这问题怎么看都是存储方面的问题
【 在 loulinzheng 的大作中提到: 】
: 用机房的三台x86 pc 服务器自己组了一个pve集群,刚开始都用得好好的.
: 有一台虚拟的win2008r2, 突然不能rdp远程了,打开console看打不开 .直接重启了虚拟
: 机,启动失败了.然后用winpe光盘启动进去看了一下硬盘, 发现好像c盘少了不少文件,难
: 怪启动不了,难道是黑客上来把文件删了,感觉又不太可能.
: 过了一段时间,一台hfish蜜罐的web页面打不开了,但是ssh还能登录上去,看到有不少zo
: mbie进程, 但是reboot和shutdown都启动失败了. 就又去强制重启了一下,又进不去系
: 统了. 难道又被黑了?
: 想不明白怎么回事. 从pve界面上看,三台服务器运行了200来天,没有异常重启过.
: 唯一有点类似的情况,是两台虚拟机都运行在ceph的磁盘上,三台服务器硬盘空间相差比
: 较大,随意组了个ceph,ceph好像一直有warning的状态.
--
修改:hyoga FROM 210.254.36.*
FROM 210.254.36.*

具体的日志和报错要去什么地方看?
【 在 hyoga 的大作中提到: 】
: 那就看看warning具体是啥啊
: 你这问题怎么看都是存储方面的问题
--
FROM 202.107.206.*
我没有用过ceph,不过看你这个日志确实也看不出来有什么。
其中提到一个host down了,这个是符合预期的吗(主动关闭)?
你3台机器主系统都是正常的吗?
【 在 loulinzheng 的大作中提到: 】
: [upload=1][/upload]
: 具体的日志和报错要去什么地方看?
--
修改:hyoga FROM 106.184.119.*
FROM 106.184.119.*
三台pve主机都是正在运行的
【 在 hyoga 的大作中提到: 】
: 我没有用过ceph,不过看你这个日志确实也看不出来有什么。
: 其中提到一个host down了,这个是符合预期的吗(主动关闭)?
: 你3台机器主系统都是正常的吗?
--
FROM 202.107.206.*
知识水平所限,我确实没有什么更多的建议。
如果说你这个话题还没有别人关注,硬要再说两句,那就是
在3台PVE上检查一下本地存储是否有问题(物理的、逻辑的)
我没用过Ceph,不知道截图里提到的scrub指的是PVE本身的ZFS系统还是Ceph的
如果是ZFS存储,那你可以手动在三台机器上scrub一下。
如果你确实用了zfs,那么可以zpool status都看看。
【 在 loulinzheng 的大作中提到: 】
: 三台pve主机都是正在运行的
--
FROM 106.184.119.*
ceph你随手就上这还挺猛,建议这点机器别上ceph
出问题多半就是它了
【 在 loulinzheng 的大作中提到: 】
: 用机房的三台x86 pc 服务器自己组了一个pve集群,刚开始都用得好好的.
: 有一台虚拟的win2008r2, 突然不能rdp远程了,打开console看打不开 .直接重启了虚拟
: 机,启动失败了.然后用winpe光盘启动进去看了一下硬盘, 发现好像c盘少了不少文件,难
: ...................
--
FROM 221.220.135.*
看样子,不懂的情况下,折腾起来还是很麻烦的。
另外,状态监控一定得跟上的
【 在 FlawZero 的大作中提到: 】
: ceph你随手就上这还挺猛,建议这点机器别上ceph
: 出问题多半就是它了
:
--
FROM 202.107.206.*
ceph不应该挺稳定了吗?我看好多厂商推超融合方案都基于这货
【 在 FlawZero (It's not a bug. It's a feature.) 的大作中提到: 】
: ceph你随手就上这还挺猛,建议这点机器别上ceph
: 出问题多半就是它了
:
: 【 在 loulinzheng 的大作中提到: 】
--
FROM 223.104.68.*
倒不是说ceph本身有问题
但是这东西对节点数,osd数,网络,都有点要求的
上之前还是要事先了解和规划一下比较稳妥
【 在 ttaudi 的大作中提到: 】
: ceph不应该挺稳定了吗?我看好多厂商推超融合方案都基于这货
--
FROM 221.220.135.*