我看了一下,我不专业啊,可能看的不对……不过看起来这也是板卡级别的电气连接呀,并不是芯片到芯片的的连接,才能实现高带宽。
我就是想啊,不知道这个大模型是需要怎么操作的,如果每个 m2ultra有192G内存,是处理器到内存的相对紧密的封装方式,直连大带宽。一个计算任务是否能分为8个子模块,分给8个m2ultra+192G来并行执行。然后彼此之前的互通是不是信息传递压力会小一些?如果是这样,级联就能做到了呀。为啥说就不行呢。
如果实在是刀片插卡这个扩张是做不到的话,那么是不是干脆分装四块或者八块m2ultra在一个板子上。没有拓展性了,但是功能足够强大?
如果实在实在不行……那么刀片插入的这个动作,看来是不能用于AI计算所需要的大带宽了。那就退而求其次,至少能媲美甚至超过 1.5T的DDR吧。现在192G连好几年前的 mac pro的内存扩展性都比不上,这个确实有点渣
【 在 haili 的大作中提到: 】
: nvlink,现在的dgx-h100单台640G总显存,就是8个H100卡加内部高速互联做到,而且还有专门的网络供多机互联。
:
https://www.nvidia.com/en-us/data-center/dgx-h100/: 不是说苹果一定做不了,但是肯定不是你设想的简单模式,基本上也不会是Mac Pro系列了。
: ...................
--
FROM 116.7.169.*