- 主题:一直不太理解,为什么训练大模型不能利用SSD
我觉得是好主意啊,怎么没人搞呢?后边Gen5服务器硬盘单盘1T的速度肯定是可以做到的
【 在 Xjt 的大作中提到: 】
: 对啊,技术上按理说完全没问题,Nvidia为了多卖显卡肯定没动力做,但Pytorch等完全可以开发类似框架啊。相比根本跑不起来,慢从来不是问题
: --
发自「今日水木 on iPhone 12」
--
FROM 101.82.73.*
训练大模型主要看随机速度还是顺序读写速度?
【 在 bigtank 的大作中提到: 】
: 问题就是在大模型领域,性能不够就等于不能。
: GPT4训练一次要100天,用了2.5万个A100。考虑用ssd的性能差异,训练时长要成倍上涨。假设训练时长涨到1000天,那就没有商业化的可能了。
: --
发自「今日水木 on iPhone 12」
--
FROM 101.82.73.*
不止
【 在 amony 的大作中提到: 】
: 除了读写的速度,还有一个致命的是写的寿命,显存的写寿命可以认为无限,而ssd,以前了解的是1000个cycle这个量级。
: --
发自「今日水木 on iPhone 12」
--
FROM 101.82.73.*
那现在已经有类似的大模型了么?我只是觉得楼主的想法很好可以解决显卡被禁的问题啊。现在没被应用起来的卡点在哪里?
【 在 lvsoft 的大作中提到: 】
:
: 这么naive的主意怎么可能没人搞?真以为内行会想不到外行的点子?这个就是offload到内存而已,内存本来就可以用硬盘当虚拟内存扩容。
: --
:
发自「今日水木 on iPhone 12」
--
FROM 111.183.20.*