个人取舍,我宁可要慢一点聪明的
而且需要的时候还可以插两个显卡,用混合模式或者跑小一些的,
【 在 Engelberger 的大作中提到: 】
:
: 12通道64G的ddr5,这也是非主流配置
: 存储容量与带宽严重不成比例,专门适用于moe了(存得多,算的少)
: 而且也是在赌,需要计算的部分平均分配到12个内存了,才会有理论最优值的10个字。
: 实际上需要计算的部分往往是有局部性的,假如活跃的37b参数在一条内存里,那
: ..................
发自「今日水木 on V」
--
FROM 39.82.60.*