- 主题:个人预测一波RTX40系显卡的卖点在于深度学习而非游戏
不可能。深度学习撑不起这么大的市场。
高端应用不可能用游戏卡。
更何况a100 cuda数量本来就只有3090的一半上下,它nb的地方是显存带宽。
更别提a100 80gb的显存,你一张40卡怎么可能顶的过8张a100总共640GB显存?
哦,你说虚拟显存啊...那回到前面的问题...a100为啥能用3090一半的cuda核,发挥出2倍的性能?两者都是同代产品哦。GDDR6X的带宽都严重制约了性能,还虚拟显存......
【 在 acseed 的大作中提到: 】
: 游戏的问题,虚幻5引擎已经解决了,随着明年相关游戏推出,大家会发现20系,30系中低端显卡也能跑得转
: 反而不用虚幻5引擎的游戏,就是上40系显卡,画质也不会有多大改善。
: 40系最大的卖点可能将是:将目前深度学习训练与推理大语言模型(LLM)的硬件需求,从八张甚至更多A100转换为单张或双卡40系,且支持虚拟显存的方式对模型进行训练(目前有些模型需要300GB以上的显存来训练,无奈只能分布式)
: ...................
--
修改:lvsoft FROM 180.111.48.*
FROM 180.111.48.*
服务器准备640GB的内存,这只是往好听了说。
叫我说,说难听点,这叫准备了640GB的磁带。
【 在 acseed 的大作中提到: 】
: 在大语言模型动辄300GB的显存需求下,再迭代两代都跟不上,估计会推出相应的软件架构,可以用内存替代显存,准备640GB内存比8张计算卡划算多了
--
FROM 180.111.48.*
看你的模型啊,又不是一定真的要把内存拼起来。
transformer的一大优势就是自注意力机制打破了顺序上的依赖,很容易并行化。
自己用游戏卡玩nvlink,顶天2张3090+nvlink。超过2个就要nvswitch,就要tesla级。其实有没有nvlink显存都是可以拼起来的,包括利用主机内存扩显存也一样。无非是官方支持,还是你自己整巴整巴弄出来的框架支持,并且pcie的带宽和latency都比nvlink低不少而已。
一般发挥好的话nvlink能整出30%左右的性能差,总的来说能上nvlink还是香的。当然还是那句话,看你的模型,也不绝对。
【 在 wwpty 的大作中提到: 】
: 单机八卡怎么拼成一个大显存的?都插在pcie上吗?多机集群只能用光网卡连接吧?最高也就100g速度
--
修改:lvsoft FROM 180.111.48.*
FROM 180.111.48.*
那当然,围棋里面的ai太过于简单。
说直接点,围棋那种还在cnn时代玩的ai,在现在ai届看来基本就是石器时代...
【 在 zszqzzzf 的大作中提到: 】
: 我用显卡下AI围棋,现有的24G显存仅用了2G。
: 增加这个显存,好像用处不大。
:
--
FROM 180.111.48.*
人开车撞墙的也多的去了,每天都有新鲜出炉的交通事故集锦,是不是人整个就是个没啥用的玩意儿呢?
【 在 zszqzzzf 的大作中提到: 】
: 说直接点,没看你们现在ai届出了什么可以用的玩意儿。上星期林志颖开个ai车直接撞墙。
--
FROM 117.136.45.*