水木社区手机版
首页
|版面-C++程序设计语言(CPlusPlus)|
新版wap站已上线
返回
1/1
|
转到
主题:deepseek快是因为使用了“混合专家”模型
3楼
|
bxdx
|
2025-01-25 12:00:46
|
展开
因为分成一个个小的之后就出不来好的效果了,比如把化学相关的分离出来,效果会急剧下降
【 在 finlab 的大作中提到: 】
: 我也不懂,都是网上帖子看到的。
:
: 又看到有人说deepseek快是因为“知识蒸馏”技术。
:
: 总之还是分工、分治的策略
--
FROM 60.10.15.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版