deepseek快是因为使用了“混合专家”模型

水木社区手机版

主题:deepseek快是因为使用了“混合专家”模型
3楼|bxdx|2025-01-25 12:00:46|展开
因为分成一个个小的之后就出不来好的效果了，比如把化学相关的分离出来，效果会急剧下降
【在 finlab 的大作中提到: 】
: 我也不懂，都是网上帖子看到的。
:
: 又看到有人说deepseek快是因为“知识蒸馏”技术。
:
: 总之还是分工、分治的策略
--
FROM 60.10.15.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版