deepseek快是因为使用了“混合专家”模型

水木社区手机版

主题:deepseek快是因为使用了“混合专家”模型
楼主|finlab|2025-01-24 21:54:49|展开
我有些好奇，人类大脑的神经元也是按照功能分区的，针对不同功能组织不同的子系统是码农的自然思维，

为什么到deepseek才想到用MoE结构？

进一步，LLM模型，集成以前的各种AI模型，完成不同类型任务，应该不难做到吧？

比如识别出数值计算，就直接丢给CPU或GPU计算，识别到逻辑推理，就丢给Prolog类似系统或者符号计算系统

这应该是最终的趋势吧？

-----------------
DeepSeek-V3的核心是一个被称为DeepSeekMoE的结构，它为计算资源的管理提供了一种全新的方法。在这个系统中，根据当前任务的需要，系统会动态地激活其“专家”子集，以使系统能够更有效地扩展，而不会过载计算资源。这种架构的一个显著特点是其动态冗余策略。通过调整专家的分配，DeepSeek-V3可以在推理和训练过程中保持最佳的负载平衡。这就好比在一支足球队中，根据比赛的进程和对手的策略，动态调整队员的位置和任务，以保持最佳的攻防平衡。

-------------
--
FROM 223.72.68.*
2楼|finlab|2025-01-25 10:29:32|展开
我也不懂，都是网上帖子看到的。

又看到有人说deepseek快是因为“知识蒸馏”技术。

总之还是分工、分治的策略

【在 cybereagle 的大作中提到: 】
: 因为不是啊
: LLM中用MoE最早是谷歌大脑搞的吧
--
FROM 223.72.68.*