MoE主要动机确实是为了省cost的
FFN的参数量比attn层多的多
【 在 lvsoft 的大作中提到: 】
: 我当然很清楚不是只激活一个专家,但没有意义啊。
: 比如说128个专家激活8个,跟8专家激活1个有啥区别?
: 重点不是激活多少个专家,重点是他是moe,它不激活所有的专家。
:
: 而且我其实也很反对这种把能力切开,变成一个个专家的模式。这就是我前面说的价值观,或者说世界观的问题。简单的说就是到底是通才更重要还是专才更重要。但这个话题太大了,三言两语讲不清就不展开了。
: 总之就是我不认为 MOE 是正确的路线,它只是一个 cost down 的路线。
--发自 ismth(丝滑版)
--
FROM 223.104.194.*