我有些好奇,人类大脑的神经元也是按照功能分区的, 针对不同功能组织不同的子系统是码农的自然思维,
为什么到deepseek才想到用MoE结构?
进一步,LLM模型,集成以前的各种AI模型,完成不同类型任务,应该不难做到吧?
比如识别出数值计算,就直接丢给CPU或GPU计算,识别到逻辑推理,就丢给Prolog类似系统或者符号计算系统
这应该是最终的趋势吧?
-----------------
DeepSeek-V3的核心是一个被称为DeepSeekMoE的结构,它为计算资源的管理提供了一种全新的方法。在这个系统中,根据当前任务的需要,系统会动态地激活其“专家”子集,以使系统能够更有效地扩展,而不会过载计算资源。这种架构的一个显著特点是其动态冗余策略。通过调整专家的分配,DeepSeek-V3可以在推理和训练过程中保持最佳的负载平衡。这就好比在一支足球队中,根据比赛的进程和对手的策略,动态调整队员的位置和任务,以保持最佳的攻防平衡。
-------------
--
FROM 223.72.68.*