水木社区手机版
首页
|版面-人工智能(AI)|
新版wap站已上线
返回
1/1
|
转到
主题:deepseek原来是蒸馏的啊,怪不得训练成本低
34楼
|
chaobill
|
2025-02-02 11:27:39
|
展开
同步的思维链能搞成异步的么
【 在 ssora 的大作中提到: 】
: 把mla mtp dual pipe ptx
: non aux loss搞清楚再来评论吧。
--
FROM 112.66.25.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版