- 主题:一直不太理解,为什么训练大模型不能利用SSD
lz文科生吧。
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
:
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
:
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B
: ..................
发自「今日水木 on ALN-AL00」
--
FROM 121.35.101.*
SSD没有比内存慢几千倍啊,要是这样,当年拿那么慢的机械硬盘做虚拟内存就不可行了。
【 在 ds9 的大作中提到: 】
: A100+SSD比普通CPU+大内存慢多了
: A100最多比CPU快100倍,SSD比内存是慢了几千倍的
: 真的是任何GPU都被卡,你就用CPU来训练都比用SSD强
: ...................
--
FROM 123.116.10.*
有理说理,不要搞人身攻击
【 在 flourish 的大作中提到: 】
: lz文科生吧。
: 发自「今日水木 on ALN-AL00」
--
FROM 123.116.10.*
别一上来就说没有,有框架支持 offload 到本地磁盘呀,deepspeed 可以。一般用 NVMe 盘。
【 在 Xjt (Voldemort) 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
:
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
:
--
FROM 125.119.104.*
你自己仔细算过吗?如果真的是几个小时和一周的区别,早就有人做这个事了,如果是几个小时和几年,你觉得还有意义吗?
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 123.113.230.*
现在最大的瓶颈是在多卡协同之后的效率,就单卡性能而言,昇腾已经可以和A100比拟了。
多卡协同效率做不好,你能加多大的SSD?1T,还是1000T,还是更多?意义是什么?
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 223.72.42.*
我觉得原因有两个:
1. 显卡不是你家出的,你没法让老黄开放在cuda计算时利用外置存储。
2.退一步说,如果显卡驱动放开了,那也是用内存啊,家用工作站级别的主板上300多GB内存轻轻松松,考虑用硬盘这种又慢寿命又低的玩意基本只是行为艺术。
【 在 Xjt (Voldemort) 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
:
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
:
--
FROM 126.75.116.*
模型越大的话,参数占的内存带宽比例越低,没法把中间结果offload到ssd,带宽太低了
--
FROM 117.129.60.*
速度跟不上,显存和CUDA核在一起的,核到SSD的速度太慢
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 223.72.68.*
文科生的典型特征是没有量的概念。
所以文科生会有很多看起来合理的奇思妙想,
lz完美符合这个描述。
【 在 qgg 的大作中提到: 】
: 有理说理,不要搞人身攻击
--
FROM 223.104.4.*