一直不太理解，为什么训练大模型不能利用SSD

水木社区手机版

主题:一直不太理解，为什么训练大模型不能利用SSD
20楼|lvsoft|2023-11-09 18:14:14|展开
这么naive的主意怎么可能没人搞？真以为内行会想不到外行的点子？这个就是offload到内存而已，内存本来就可以用硬盘当虚拟内存扩容。

【在 chglele 的大作中提到: 】
: 我觉得是好主意啊，怎么没人搞呢？后边Gen5服务器硬盘单盘1T的速度肯定是可以做到的
: 发自「今日水木 on iPhone 12」
--
FROM 180.98.6.*
21楼|lvsoft|2023-11-09 18:17:02|展开
4张a100跑几小时的应用确实可以等。别说内存换ssd了，你没有GPU，用CPU跑都能等。

然而现实是人家上千张卡跑一周的应用，你得等几年。这样你还能等么？

【在 Xjt 的大作中提到: 】
: 一直不太理解，为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的，根本不是芯片速度，而是内存。想要全量微调一个6B的大模型，就得有320G显存，就得4块A100。
: 如果只有一块A100，利用80G显存+240G SSD，理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢？
: ...................
--
FROM 180.98.6.*
26楼|lvsoft|2023-11-10 01:27:23|展开
哪有被卡？
国内可是有188个大模型呢，连蒙牛都自己训练了一个。

【在 chglele 的大作中提到: 】
: 那现在已经有类似的大模型了么？我只是觉得楼主的想法很好可以解决显卡被禁的问题啊。现在没被应用起来的卡点在哪里？
: 发自「今日水木 on iPhone 12」

--
FROM 180.111.36.*
39楼|lvsoft|2023-11-11 23:39:43|展开
文科生的典型特征是没有量的概念。
所以文科生会有很多看起来合理的奇思妙想，
lz完美符合这个描述。

【在 qgg 的大作中提到: 】
: 有理说理，不要搞人身攻击
--
FROM 223.104.4.*