- 主题:一直不太理解,为什么训练大模型不能利用SSD
看来要引入虚拟显存的概念了
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 111.193.230.*
感觉在操作系统上改进好一些,苹果已经引入了统一内存(unified memory),那么把统一内存延申到虚拟内存就可以了,这样有统一的寻址规范,软件就会很好实现甚至不用实现。当然PC的硬件应该也得有新的架构,得向苹果学习一下了。
【 在 Xjt 的大作中提到: 】
: 对啊,技术上按理说完全没问题,Nvidia为了多卖显卡肯定没动力做,但Pytorch等完全可以开发类似框架啊。相比根本跑不起来,慢从来不是问题
--
FROM 111.193.230.*
SSD没有比内存慢几千倍啊,要是这样,当年拿那么慢的机械硬盘做虚拟内存就不可行了。
【 在 ds9 的大作中提到: 】
: A100+SSD比普通CPU+大内存慢多了
: A100最多比CPU快100倍,SSD比内存是慢了几千倍的
: 真的是任何GPU都被卡,你就用CPU来训练都比用SSD强
: ...................
--
FROM 123.116.10.*
有理说理,不要搞人身攻击
【 在 flourish 的大作中提到: 】
: lz文科生吧。
: 发自「今日水木 on ALN-AL00」
--
FROM 123.116.10.*