- 主题:一直不太理解,为什么训练大模型不能利用SSD
一直不太理解,为什么训练大模型不能利用SSD
现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
别告诉我会慢啊,我知道会慢,但原来4块A100运行几个小时,现在1块A100运行一周。也不是不能等啊。何况只要算法做得好,未必会慢超过10倍。
--
FROM 220.243.154.*
有很多优化方案可以提速,更何况一边是显卡不够导致能不能的问题,一边是等多久的问题,这不是很简单的选择嘛?
【 在 bigtank 的大作中提到: 】
: GPU 是矩阵运算,一次性计算的数据量级很大,每次运算都临时读取数据的时间成本太高了。为了极致的计算效率,GPU 将数据存储在显存中执行多轮运算,避免数据通量成为耗时瓶颈。
--
FROM 220.243.154.*
我知道慢,但慢可以等,总比没足够显卡就用不了好,不是嘛?
【 在 slimcan 的大作中提到: 】
: ssd读取的速度太慢了
: --
: 发自xsmth (iOS版)
--
FROM 39.144.107.*
对啊,技术上按理说完全没问题,Nvidia为了多卖显卡肯定没动力做,但Pytorch等完全可以开发类似框架啊。相比根本跑不起来,慢从来不是问题
【 在 qgg 的大作中提到: 】
: 看来要引入虚拟显存的概念了
--
FROM 39.144.107.*
谁和你说pre-train了,我在说全量微调。
【 在 bigtank 的大作中提到: 】
: 问题就是在大模型领域,性能不够就等于不能。
: GPT4训练一次要100天,用了2.5万个A100。考虑用ssd的性能差异,训练时长要成倍上涨。假设训练时长涨到1000天,那就没有商业化的可能了。
: :有很多优化方案可以提速,更何况一边是显卡不够导致能不能的问题,一边是等多久的问题,这不是很简单的选择嘛?
: ...................
--
FROM 220.243.154.*
感谢,这个结论很靠谱
【 在 ds9 的大作中提到: 】
: A100+SSD比普通CPU+大内存慢多了
: A100最多比CPU快100倍,SSD比内存是慢了几千倍的
: 真的是任何GPU都被卡,你就用CPU来训练都比用SSD强
: ...................
--
FROM 39.144.106.*