看你的模型啊,又不是一定真的要把内存拼起来。
transformer的一大优势就是自注意力机制打破了顺序上的依赖,很容易并行化。
自己用游戏卡玩nvlink,顶天2张3090+nvlink。超过2个就要nvswitch,就要tesla级。其实有没有nvlink显存都是可以拼起来的,包括利用主机内存扩显存也一样。无非是官方支持,还是你自己整巴整巴弄出来的框架支持,并且pcie的带宽和latency都比nvlink低不少而已。
一般发挥好的话nvlink能整出30%左右的性能差,总的来说能上nvlink还是香的。当然还是那句话,看你的模型,也不绝对。
【 在 wwpty 的大作中提到: 】
: 单机八卡怎么拼成一个大显存的?都插在pcie上吗?多机集群只能用光网卡连接吧?最高也就100g速度
--
修改:lvsoft FROM 180.111.48.*
FROM 180.111.48.*