- 主题:个人预测一波RTX40系显卡的卖点在于深度学习而非游戏
游戏的问题,虚幻5引擎已经解决了,随着明年相关游戏推出,大家会发现20系,30系中低端显卡也能跑得转
反而不用虚幻5引擎的游戏,就是上40系显卡,画质也不会有多大改善。
40系最大的卖点可能将是:将目前深度学习训练与推理大语言模型(LLM)的硬件需求,从八张甚至更多A100转换为单张或双卡40系,且支持虚拟显存的方式对模型进行训练(目前有些模型需要300GB以上的显存来训练,无奈只能分布式)
解决了上述痛点,40系显卡才能大卖
--
修改:acseed FROM 117.136.32.*
FROM 117.136.32.*
在大语言模型动辄300GB的显存需求下,再迭代两代都跟不上,估计会推出相应的软件架构,可以用内存替代显存,准备640GB内存比8张计算卡划算多了
【 在 lvsoft 的大作中提到: 】
: 不可能。深度学习撑不起这么大的市场。
: 高端应用不可能用游戏卡。
: 更何况a100 cuda数量本来就只有3090的一半上下,它nb的地方是显存带宽。
: ...................
--
FROM 117.136.32.*
虚拟显存那块看软件了,实际就算是Dense网络,做BP训练时也不是几百GB权值同时活跃的,用先进的先验算法,把最需要快速更新的部分预装载到显存好了,就像CPU对待Cache一样
【 在 lvsoft 的大作中提到: 】
: 不可能。深度学习撑不起这么大的市场。
: 高端应用不可能用游戏卡。
: 更何况a100 cuda数量本来就只有3090的一半上下,它nb的地方是显存带宽。
: ...................
--
FROM 117.136.32.*
RL训练得来的都是小参数模型,GPT-3那种大语言模型,近350G
【 在 zszqzzzf 的大作中提到: 】
: 我用显卡下AI围棋,现有的24G显存仅用了2G。
: 增加这个显存,好像用处不大。
:
--
FROM 113.68.89.*
有开源的成果可以用,搜bloom,有176B参数,闭源的GPT-3是175B,跑预训练好的模型大约需要380G显存,至少5张A100,不知道能否5张拼起来?
从头训练就别想了,人家接受企业捐款用集群跑了三个多月
【 在 wwpty 的大作中提到: 】
: 有开源又便宜的解决方案吗?
--
FROM 113.68.89.*