- 主题:一直不太理解,为什么训练大模型不能利用SSD
瓶颈在数据通信带宽,训练时间长到一定程度,就没有意义了
因为硬件也是有折旧成本的
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的
: 大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个
: 6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 101.86.22.*
感觉在操作系统上改进好一些,苹果已经引入了统一内存(unified memory),那么把统一内存延申到虚拟内存就可以了,这样有统一的寻址规范,软件就会很好实现甚至不用实现。当然PC的硬件应该也得有新的架构,得向苹果学习一下了。
【 在 Xjt 的大作中提到: 】
: 对啊,技术上按理说完全没问题,Nvidia为了多卖显卡肯定没动力做,但Pytorch等完全可以开发类似框架啊。相比根本跑不起来,慢从来不是问题
--
FROM 111.193.230.*
ssd 访问速度太慢了,与cpu访问L1缓存相比,差距大致有100万倍
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 61.135.194.*
ssd不能实现随机地址访问,是个块存储设备。
ram是随机地址访问设备。
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 120.230.113.*
速度 寿命
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 124.64.18.*
GDDR都嫌慢
你要人家用慢好几个数量级的SSD?
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 61.48.133.*
除了读写的速度,还有一个致命的是写的寿命,显存的写寿命可以认为无限,而ssd,以前了解的是1000个cycle这个量级。
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 183.173.113.*
我觉得是好主意啊,怎么没人搞呢?后边Gen5服务器硬盘单盘1T的速度肯定是可以做到的
【 在 Xjt 的大作中提到: 】
: 对啊,技术上按理说完全没问题,Nvidia为了多卖显卡肯定没动力做,但Pytorch等完全可以开发类似框架啊。相比根本跑不起来,慢从来不是问题
: --
发自「今日水木 on iPhone 12」
--
FROM 101.82.73.*
训练大模型主要看随机速度还是顺序读写速度?
【 在 bigtank 的大作中提到: 】
: 问题就是在大模型领域,性能不够就等于不能。
: GPT4训练一次要100天,用了2.5万个A100。考虑用ssd的性能差异,训练时长要成倍上涨。假设训练时长涨到1000天,那就没有商业化的可能了。
: --
发自「今日水木 on iPhone 12」
--
FROM 101.82.73.*
不止
【 在 amony 的大作中提到: 】
: 除了读写的速度,还有一个致命的是写的寿命,显存的写寿命可以认为无限,而ssd,以前了解的是1000个cycle这个量级。
: --
发自「今日水木 on iPhone 12」
--
FROM 101.82.73.*