我当然很清楚不是只激活一个专家,但没有意义啊。
比如说128个专家激活8个,跟8专家激活1个有啥区别?
重点不是激活多少个专家,重点是他是moe,它不激活所有的专家。
而且我其实也很反对这种把能力切开,变成一个个专家的模式。这就是我前面说的价值观,或者说世界观的问题。简单的说就是到底是通才更重要还是专才更重要。但这个话题太大了,三言两语讲不清就不展开了。
总之就是我不认为 MOE 是正确的路线,它只是一个 cost down 的路线。
【 在 weiwallz 的大作中提到: 】
: 这个可能你得核实一下,一次输入的激活的专家数量不是限定在1的
: 比如,你里面混杂了文本和代码,文本和图像,激活的可能都不是只有一个专家
:
: ...................
--
修改:lvsoft FROM 116.233.45.*
FROM 116.233.45.*