一直不太理解，为什么训练大模型不能利用SSD

水木社区手机版

主题:一直不太理解，为什么训练大模型不能利用SSD
20楼|lvsoft|2023-11-09 18:14:14|只看此ID
这么naive的主意怎么可能没人搞？真以为内行会想不到外行的点子？这个就是offload到内存而已，内存本来就可以用硬盘当虚拟内存扩容。

【在 chglele 的大作中提到: 】
: 我觉得是好主意啊，怎么没人搞呢？后边Gen5服务器硬盘单盘1T的速度肯定是可以做到的
: 发自「今日水木 on iPhone 12」
--
FROM 180.98.6.*
21楼|lvsoft|2023-11-09 18:17:02|只看此ID
4张a100跑几小时的应用确实可以等。别说内存换ssd了，你没有GPU，用CPU跑都能等。

然而现实是人家上千张卡跑一周的应用，你得等几年。这样你还能等么？

【在 Xjt 的大作中提到: 】
: 一直不太理解，为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的，根本不是芯片速度，而是内存。想要全量微调一个6B的大模型，就得有320G显存，就得4块A100。
: 如果只有一块A100，利用80G显存+240G SSD，理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢？
: ...................
--
FROM 180.98.6.*
22楼|chglele|2023-11-09 18:37:20|只看此ID
那现在已经有类似的大模型了么？我只是觉得楼主的想法很好可以解决显卡被禁的问题啊。现在没被应用起来的卡点在哪里？
【在 lvsoft 的大作中提到: 】
:
: 这么naive的主意怎么可能没人搞？真以为内行会想不到外行的点子？这个就是offload到内存而已，内存本来就可以用硬盘当虚拟内存扩容。
: --
:

发自「今日水木 on iPhone 12」
--
FROM 111.183.20.*
23楼|db1|2023-11-09 19:39:09|只看此ID
哈哈哈哈，ssd这么牛逼为啥还要内存呢，别说那么大的数据，就你的pc你试试硬盘内存来回倒腾数据的时候系统啥德行

【在 Xjt (Voldemort) 的大作中提到: 】
:  一直不太理解，为什么训练大模型不能利用SSD
:
:  现在制约大模型训练和推理的，根本不是芯片速度，而是内存。想要全量微调一个6B的大模型，就得有320G显存，就得4块A100。
:
--
FROM 61.149.133.*
24楼|db1|2023-11-09 19:41:08|只看此ID
火箭可以烧煤不？

【在 Xjt (Voldemort) 的大作中提到: 】
:  一直不太理解，为什么训练大模型不能利用SSD
:
:  现在制约大模型训练和推理的，根本不是芯片速度，而是内存。想要全量微调一个6B的大模型，就得有320G显存，就得4块A100。
:
--
FROM 61.149.133.*
25楼|ZHMZFFL|2023-11-09 23:41:49|只看此ID
不是加内存？
--
FROM 60.1.5.*
26楼|lvsoft|2023-11-10 01:27:23|只看此ID
哪有被卡？
国内可是有188个大模型呢，连蒙牛都自己训练了一个。

【在 chglele 的大作中提到: 】
: 那现在已经有类似的大模型了么？我只是觉得楼主的想法很好可以解决显卡被禁的问题啊。现在没被应用起来的卡点在哪里？
: 发自「今日水木 on iPhone 12」

--
FROM 180.111.36.*
27楼|ds9|2023-11-10 09:59:41|只看此ID
A100+SSD比普通CPU+大内存慢多了

A100最多比CPU快100倍，SSD比内存是慢了几千倍的

真的是任何GPU都被卡，你就用CPU来训练都比用SSD强

【在 Xjt 的大作中提到: 】
: 一直不太理解，为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的，根本不是芯片速度，而是内存。想要全量微调一个6B的大模型，就得有320G显存，就得4块A100。
: 如果只有一块A100，利用80G显存+240G SSD，理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢？
: ...................
--
FROM 223.166.103.*
28楼|Xjt|2023-11-10 10:18:03|只看此ID
感谢，这个结论很靠谱
【在 ds9 的大作中提到: 】
: A100+SSD比普通CPU+大内存慢多了
: A100最多比CPU快100倍，SSD比内存是慢了几千倍的
: 真的是任何GPU都被卡，你就用CPU来训练都比用SSD强
: ...................
--
FROM 39.144.106.*
29楼|tgfbeta|2023-11-10 11:32:53|只看此ID
能
如果你的raid带宽能打赢hbm
记得以前在某个论坛看老外装X用服务器的raid和4G内存跑量化模型也是嗖嗖的
【在 Xjt 的大作中提到: 】
: 一直不太理解，为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的，根本不是芯片速度，而是内存。想要全量微调一个6B的大模型，就得有320G显存，就得4块A100。
: 如果只有一块A100，利用80G显存+240G SSD，理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢？
: ...................
--
FROM 125.38.176.*