Re: deepseek快是因为使用了“混合专家”模型

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: deepseek快是因为使用了“混合专家”模型
finlab|2025-01-25 10:29:32|
我也不懂，都是网上帖子看到的。

又看到有人说deepseek快是因为“知识蒸馏”技术。

总之还是分工、分治的策略

【在 cybereagle 的大作中提到: 】
: 因为不是啊
: LLM中用MoE最早是谷歌大脑搞的吧
--
FROM 223.72.68.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版