deepseek这种moe模型当然会这样。
它简单的说就是256个小模型。
每次对话只是选择其中一个最合适的小模型来回答,
所以它训练和推理成本低速度快。
但moe不能保证每次都能选到同样的那个小模型,所以它的回答不稳定。此外本质是小模型,但却需要占据大模型的体量。1个模型回答,另外255个模型占着空间不干活。
如果显存跟内存一样不值钱,倒也无所谓,可是现在的ai算力基本都是按显存定价的。
【 在 pixYY 的大作中提到: 】
: 看来AI跟大多数人一样
: 没有认清自己,还在纠结 我是谁 的问题
:
--
修改:lvsoft FROM 218.1.145.*
FROM 218.1.145.*