- 主题:ZFS必须用带ECC的内存吗?
不必要。
ecc这种属于锦上添花的事情。
你可以参照自己的经历,没有ecc的日子过得如何。
ecc防的是,在内存里错了的数据,写入到所有的磁盘成员,成了日后读出时权威合法数
据。如果你真的很看重那点概率,上ecc也无妨。
【 在 ttaudi 的大作中提到: 】
: 由于国产内存太给力了,我之前给一台AMD5800的台式机配了4根32G DDR4内存,系统跑debian,系统盘是512G的SSD,数据盘是18T的机械硬盘。数据盘的文件系统是ZFS,7x24小时开机,已经运行1年半了。
: 今年618琢磨着把硬盘升级一下,升级成raidz3,这样就不怕单个硬盘突然坏了。
: 但是这几天突然看到篇文章说大内存很容易出现单bit错误,32G的DDR4内存大约5天就会出现一次内存单bit错误。印象中记得在板上看到过大家讨论ZFS,说一定要配ECC内存。像我这种情况是不是要把台式机也给换了,换成带ECC的内存才保险?
: ...................
--
FROM 119.130.154.*
不用ECC除了省钱,不会更好。
ECC的改善是实打实的。但是你要判断单bit这种事情概率多大,对你伤害如何。时刻考
虑存储冗余性的人,危机感应该是足够的。但是,要不要把各种保障措施往上提,看需
求。和要不要双电源,要不要异地灾备之类的考量一样,成本问题。
amd平台可能松一点。在intel的市场策略下,用ecc,硬件的选择立马少了一半。
【 在 ttaudi 的大作中提到: 】
: 就是不知道大容量内存出现单bit错误带来的危害,所以来问问大家呀。
: 如果不用ECC更好,我当前的配置不用改了。
--
FROM 119.130.152.*
ddr5内置ecc,和服务器ecc内存原理类似,但能力不一样,不是同一样东西。
https://www.intel.com/content/www/us/en/content-details/760828/ecc-memory-vs
-ddr5-built-in-data-checking.html
Recent marketing campaigns have touted regular DDR5
memory as having “built-in” ECC, which is simply not true.
What it does have is built-in data checking. That means it can
check to see if any bit flips have occurred on the memory
module, but it's only capable of checking and correcting a
single bit of memory errors, so it doesn't provide the full data
integrity found in ECC memory modules.
【 在 ttaudi 的大作中提到: 】
: 这,刚才楼上还说不用ECC。
: 是不是DDR5就不区分内存带ECC和不带ECC了,它默认都是带ECC的。
: 这样只需要无脑升级到DDR5平台就好了?
: ...................
--
FROM 119.130.152.*
没有推荐。
比如用洋垃圾,上ecc内存完全不是事,轻松得很。问题在于洋垃圾的稳定性存疑,为了
支持ecc值不值。
如果你要用新件组装支持ecc的低功耗小服务器,又是另一种情况。
自己按需求对着cpu、芯片组的功能筛选拉单即可。
intel把支持ecc内存作为一个高端特性来卖,意味着配套的芯片组,电源可能是机架服
务器级别的。服务器全家桶,大板,费电。
这种情况下上ecc,需要用户考虑清楚各种因素。
【 在 ttaudi 的大作中提到: 】
: 就是这方面不了解,所以疑惑是否要上ECC。而且成本也是很现实的问题,目前也用不上企业级的,只能用消费类的机器。双电源和异地灾备,这些都是一些重要数据中心了吧,感觉成本会翻倍上升。目前还没达到这点,只是想看看是否能找到一条性价比的路线,既能保全数据,又能正常工
: 作的数据仓库。
: AMD和intel在ECC上有区别倒没想到,有什么型号的机器推荐吗?
: ...................
--
FROM 119.130.152.*
这种统计数据没什么意义。
现代操作系统,本来就有层层机制,消减内存内容受损(因故障或者攻击者恶意)的影
响。
如果内存发生bit flip,那么,它会发生在操作系统整个寻址空间的随机位置,造成后
果五花八门。
比如:
发生在未分配的内存空间——啥事都不会发生,原来就是垃圾数据;
发生在往外发送网络数据缓存区——很可能没啥大事,坏包一个,被对方丢弃要求重发
;
发生在程序运行数据中——也可能啥事没有,被运行中的检查发现,这个exception被捕
捉处理了;
当然也有捕捉处理不到的,某进程segfault,或者kernel panic,甚至整个系统崩溃,
这里对文件系统的影响就是未写入到文件系统的缓冲区数据丢失。但对zfs,btrfs这类
COW文件系统上原有的数据应该不会有问题,因为它们只改写新的数据块,除非你在干文
件系统级别的重IO维护操作,尽管这样,后果可能比你的误挂载轻很多。
而用户最担心的,会永久应用到文件系统的,可能就是内存内容损坏刚好没引起任何浪
花,逃脱检查,静默的写入到磁盘中转为合法正式数据。前面种种可能分下来,这个不
会多的。
讨厌服务中断,数据有一丁点损坏可能的关键性业务,当然是必须上ECC了,但是,ECC
不免费。很多时候,休闲用户容忍一定频率的死机,定期scrub,也能覆盖大部分。
所以我让你注意一下,你不用ecc的时候,系统如何的不稳定。在文件系统倒霉前,系统
一定会不稳到一定程度,自己评估上ECC的必要性。
如果自己上ECC成本很低,不用纠结,上就是了。锦上添花好。
【 在 ttaudi 的大作中提到: 】
: 内存多大?是7x24小时开机吗?
: 我看说32G内存连续开机5天就会出现1bit错误,那篇新闻也说,如果不是连续开机,遇到1bit错误的概率很小。
--
修改:Dazzy FROM 119.130.152.*
FROM 119.130.152.*
你家有地下室?家庭直接用机架服务器不多,那个(些)暴力风扇很狂野的,尤其是空调不到位时,撕心裂肺,噪音污染严重。
【 在 ttaudi 的大作中提到: 】
:
: 请问捡垃圾哪里有教程或者论坛之类的?
:
: 这两天看B站有人捡华为RH2285,才450元就有2U机架服务器,有点想整一个,只是不知道哪里有指导教程。
:
#发自zSMTH@Redmi Note 7
--
FROM 119.129.237.*
公家地方?如果24x7,相信你把散热、消防甚至巡检制度都弄好了。又是一笔投入。
如果没弄好,小心把自己搞进去了。
搞着搞着就无底洞了。这类东西贱价是有理由的。
【 在 ttaudi 的大作中提到: 】
: 扔公司仓库啊,好像也有些比较静音的,b站有人用来打游戏,不过那些静音的好像比较受欢迎,都不便宜
--
FROM 119.130.155.*