一直不太理解，为什么训练大模型不能利用SSD

水木社区手机版

主题:一直不太理解，为什么训练大模型不能利用SSD
5楼|qgg|2023-11-08 14:27:08|展开
看来要引入虚拟显存的概念了
【在 Xjt 的大作中提到: 】
: 一直不太理解，为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的，根本不是芯片速度，而是内存。想要全量微调一个6B的大模型，就得有320G显存，就得4块A100。
: 如果只有一块A100，利用80G显存+240G SSD，理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢？
: ...................
--
FROM 111.193.230.*
11楼|qgg|2023-11-08 20:42:49|展开
感觉在操作系统上改进好一些，苹果已经引入了统一内存（unified memory），那么把统一内存延申到虚拟内存就可以了，这样有统一的寻址规范，软件就会很好实现甚至不用实现。当然PC的硬件应该也得有新的架构，得向苹果学习一下了。
【在 Xjt 的大作中提到: 】
: 对啊，技术上按理说完全没问题，Nvidia为了多卖显卡肯定没动力做，但Pytorch等完全可以开发类似框架啊。相比根本跑不起来，慢从来不是问题
--
FROM 111.193.230.*
31楼|qgg|2023-11-11 01:06:01|展开
SSD没有比内存慢几千倍啊，要是这样，当年拿那么慢的机械硬盘做虚拟内存就不可行了。
【在 ds9 的大作中提到: 】
: A100+SSD比普通CPU+大内存慢多了
: A100最多比CPU快100倍，SSD比内存是慢了几千倍的
: 真的是任何GPU都被卡，你就用CPU来训练都比用SSD强
: ...................
--
FROM 123.116.10.*
32楼|qgg|2023-11-11 01:09:09|展开
有理说理，不要搞人身攻击
【在 flourish 的大作中提到: 】
: lz文科生吧。
: 发自「今日水木 on ALN-AL00」
--
FROM 123.116.10.*