- 主题:一直不太理解,为什么训练大模型不能利用SSD
这么naive的主意怎么可能没人搞?真以为内行会想不到外行的点子?这个就是offload到内存而已,内存本来就可以用硬盘当虚拟内存扩容。
【 在 chglele 的大作中提到: 】
: 我觉得是好主意啊,怎么没人搞呢?后边Gen5服务器硬盘单盘1T的速度肯定是可以做到的
: 发自「今日水木 on iPhone 12」
--
FROM 180.98.6.*
4张a100跑几小时的应用确实可以等。别说内存换ssd了,你没有GPU,用CPU跑都能等。
然而现实是人家上千张卡跑一周的应用,你得等几年。这样你还能等么?
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 180.98.6.*
那现在已经有类似的大模型了么?我只是觉得楼主的想法很好可以解决显卡被禁的问题啊。现在没被应用起来的卡点在哪里?
【 在 lvsoft 的大作中提到: 】
:
: 这么naive的主意怎么可能没人搞?真以为内行会想不到外行的点子?这个就是offload到内存而已,内存本来就可以用硬盘当虚拟内存扩容。
: --
:
发自「今日水木 on iPhone 12」
--
FROM 111.183.20.*
哈哈哈哈,ssd这么牛逼为啥还要内存呢,别说那么大的数据,就你的pc你试试硬盘内存来回倒腾数据的时候系统啥德行
【 在 Xjt (Voldemort) 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
:
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
:
--
FROM 61.149.133.*
火箭可以烧煤不?
【 在 Xjt (Voldemort) 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
:
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
:
--
FROM 61.149.133.*
不是加内存?
--
FROM 60.1.5.*
哪有被卡?
国内可是有188个大模型呢,连蒙牛都自己训练了一个。
【 在 chglele 的大作中提到: 】
: 那现在已经有类似的大模型了么?我只是觉得楼主的想法很好可以解决显卡被禁的问题啊。现在没被应用起来的卡点在哪里?
: 发自「今日水木 on iPhone 12」
--
FROM 180.111.36.*
A100+SSD比普通CPU+大内存慢多了
A100最多比CPU快100倍,SSD比内存是慢了几千倍的
真的是任何GPU都被卡,你就用CPU来训练都比用SSD强
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 223.166.103.*
感谢,这个结论很靠谱
【 在 ds9 的大作中提到: 】
: A100+SSD比普通CPU+大内存慢多了
: A100最多比CPU快100倍,SSD比内存是慢了几千倍的
: 真的是任何GPU都被卡,你就用CPU来训练都比用SSD强
: ...................
--
FROM 39.144.106.*
能
如果你的raid带宽能打赢hbm
记得以前在某个论坛看老外装X用服务器的raid和4G内存跑量化模型也是嗖嗖的
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 125.38.176.*