r1只要不是满血都是弱智。
因为它是个256 moe,本质上要切成256份,同时激活其中8个。
满血状态切256份,那一个专家的体量大概也就3b,这个体量还属于勉强能用的状态。
你给它但凡降1个数量级,这个专家模型就变成弱智了,更别提进一步缩到14b这种,直接变成孑孓
【 在 poggy 的大作中提到: 】
:
: 这不很正常吗, 7b的参数量也最少, 相当于70亿个细胞的大脑对战几百亿个细胞的大脑, 输了不丢人。
: 不拿70b去比, 好歹也要用个14b才公平。
--
FROM 222.68.51.*