- 主题:自己想攒个四卡的深度学习工作站,硬件来源?
内存问题好说,但UPS绝对非常重要。
有一次我一客户出错了,算出了一个意外值,排查了好久,最后判断是显卡意外断电核心烧了,UPS不是为了保模型,是为了保硬件。
【 在 lvsoft 的大作中提到: 】
: ups意义不大。个人用遇到掉电了也无所谓,反正训练过程中会有checkpoint,顶天浪费1-2小时而已。
: 内存问题看会不会用到off load,不然也一样意义不大,不管是容量还是带宽。
--
FROM 171.120.195.*
目前两张3090都是运行在pcie2.0 x16
【 在 lvsoft 的大作中提到: 】
: 最低pcie3.0 x8,等价pcie4.0 x4
: 再低就有显著影响了。
: 你的问题可能是接触不良跑在降级的profile上了。
--
FROM 219.146.119.*
推荐,李牧深度学习装机,超赞。感谢我吧,随便转点积分。
【 在 bullr (肥) 的大作中提到: 】
: 请教下,淘宝或闲鱼能买到合适的主板,机箱和电源吗?预计四块4090的样子。总价能多少下来?
: --
:
:
--
FROM 223.104.41.*
这种概率可能还没4090供电线烧了的概率大。
小概率事件无视就行了。
另外,gpu算错很常见的事情,不然你以为为啥ecc会是tesla级的配置?
【 在 VincentGe 的大作中提到: 】
: 内存问题好说,但UPS绝对非常重要。
: 有一次我一客户出错了,算出了一个意外值,排查了好久,最后判断是显卡意外断电核心烧了,UPS不是为了保模型,是为了保硬件。
:
--
FROM 180.111.26.*
关键是硬件太贵了,一个能用的UPS不到2000,不过到底买不买看楼主最后预算吧。
消费卡没有ECC,这个lz需要注意下。
【 在 lvsoft 的大作中提到: 】
: 这种概率可能还没4090供电线烧了的概率大。
: 小概率事件无视就行了。
: 另外,gpu算错很常见的事情,不然你以为为啥ecc会是tesla级的配置?
: ...................
--
FROM 118.81.85.*