- 主题:一直不太理解,为什么训练大模型不能利用SSD
一直不太理解,为什么训练大模型不能利用SSD
现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
别告诉我会慢啊,我知道会慢,但原来4块A100运行几个小时,现在1块A100运行一周。也不是不能等啊。何况只要算法做得好,未必会慢超过10倍。
--
FROM 220.243.154.*
GPU 是矩阵运算,一次性计算的数据量级很大,每次运算都临时读取数据的时间成本太高了。为了极致的计算效率,GPU 将数据存储在显存中执行多轮运算,避免数据通量成为耗时瓶颈。
--
FROM 114.251.196.*
有很多优化方案可以提速,更何况一边是显卡不够导致能不能的问题,一边是等多久的问题,这不是很简单的选择嘛?
【 在 bigtank 的大作中提到: 】
: GPU 是矩阵运算,一次性计算的数据量级很大,每次运算都临时读取数据的时间成本太高了。为了极致的计算效率,GPU 将数据存储在显存中执行多轮运算,避免数据通量成为耗时瓶颈。
--
FROM 220.243.154.*
ssd读取的速度太慢了
【 在 Xjt (Voldemort) 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
:
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
:
--
FROM 107.3.131.*
我知道慢,但慢可以等,总比没足够显卡就用不了好,不是嘛?
【 在 slimcan 的大作中提到: 】
: ssd读取的速度太慢了
: --
: 发自xsmth (iOS版)
--
FROM 39.144.107.*
看来要引入虚拟显存的概念了
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 111.193.230.*
对啊,技术上按理说完全没问题,Nvidia为了多卖显卡肯定没动力做,但Pytorch等完全可以开发类似框架啊。相比根本跑不起来,慢从来不是问题
【 在 qgg 的大作中提到: 】
: 看来要引入虚拟显存的概念了
--
FROM 39.144.107.*
问题就是在大模型领域,性能不够就等于不能。
GPT4训练一次要100天,用了2.5万个A100。考虑用ssd的性能差异,训练时长要成倍上涨。假设训练时长涨到1000天,那就没有商业化的可能了。
【 在 Xjt 的大作中提到: 】
:有很多优化方案可以提速,更何况一边是显卡不够导致能不能的问题,一边是等多久的问题,这不是很简单的选择嘛?
- 来自 水木社区APP v3.5.7
--
FROM 36.112.180.*
大哥可以去看看gpu服务器的配置,肯定都带ssd。
ssd是外存,解决的是数据加载效率,显存是解决计算时的数据交换效率
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
:
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
:
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
:
: 别告诉我会慢啊,我知道会慢,但原来4块A100运行几个小时,现在1块A100运行一周。也不是不能等啊。何况只要算法做得好,未必会慢超过10倍。
发自「快看水母 于 EVR-AL00」
--
FROM 223.104.38.*
谁和你说pre-train了,我在说全量微调。
【 在 bigtank 的大作中提到: 】
: 问题就是在大模型领域,性能不够就等于不能。
: GPT4训练一次要100天,用了2.5万个A100。考虑用ssd的性能差异,训练时长要成倍上涨。假设训练时长涨到1000天,那就没有商业化的可能了。
: :有很多优化方案可以提速,更何况一边是显卡不够导致能不能的问题,一边是等多久的问题,这不是很简单的选择嘛?
: ...................
--
FROM 220.243.154.*