水木社区手机版
首页
|版面-人工智能(AI)|
新版wap站已上线
返回
1/1
|
转到
主题:一直不太理解,为什么训练大模型不能利用SSD
20楼
|
lvsoft
|
2023-11-09 18:14:14
|
展开
这么naive的主意怎么可能没人搞?真以为内行会想不到外行的点子?这个就是offload到内存而已,内存本来就可以用硬盘当虚拟内存扩容。
【 在 chglele 的大作中提到: 】
: 我觉得是好主意啊,怎么没人搞呢?后边Gen5服务器硬盘单盘1T的速度肯定是可以做到的
: 发自「今日水木 on iPhone 12」
--
FROM 180.98.6.*
21楼
|
lvsoft
|
2023-11-09 18:17:02
|
展开
4张a100跑几小时的应用确实可以等。别说内存换ssd了,你没有GPU,用CPU跑都能等。
然而现实是人家上千张卡跑一周的应用,你得等几年。这样你还能等么?
【 在 Xjt 的大作中提到: 】
: 一直不太理解,为什么训练大模型不能利用SSD
: 现在制约大模型训练和推理的,根本不是芯片速度,而是内存。想要全量微调一个6B的大模型,就得有320G显存,就得4块A100。
: 如果只有一块A100,利用80G显存+240G SSD,理论上完全应该可以做到能全量微调一个6B的大模型。为什么没任何算法或者框架向着这个方向开发呢?
: ...................
--
FROM 180.98.6.*
26楼
|
lvsoft
|
2023-11-10 01:27:23
|
展开
哪有被卡?
国内可是有188个大模型呢,连蒙牛都自己训练了一个。
【 在 chglele 的大作中提到: 】
: 那现在已经有类似的大模型了么?我只是觉得楼主的想法很好可以解决显卡被禁的问题啊。现在没被应用起来的卡点在哪里?
: 发自「今日水木 on iPhone 12」
--
FROM 180.111.36.*
39楼
|
lvsoft
|
2023-11-11 23:39:43
|
展开
文科生的典型特征是没有量的概念。
所以文科生会有很多看起来合理的奇思妙想,
lz完美符合这个描述。
【 在 qgg 的大作中提到: 】
: 有理说理,不要搞人身攻击
--
FROM 223.104.4.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版