水木社区手机版
首页
|版面-编程技术(Programming)|
新版wap站已上线
展开
|
楼主
|
同主题展开
|
溯源
|
返回
上一篇
|
下一篇
|
同主题上篇
|
同主题下篇
主题:Re: 看了deepseek团队介绍,感觉潜力很大
db1
|
2025-01-07 06:52:41
|
论证一大堆扯,就看投入产出比,你说小模型是捷径,又没人拦着不让其他家走,也作出结果来嘛
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
: 这次训练只用了2000张卡。
: 另外坦白地说我一点也不觉得这个成果算多好,放一年前可以这么说,放现在只能是平均水准。
: v3是moe模型,有256个37b小模型组成。简单的说就是你每次问题都会路由到某一个最适合解决这个问题的37b小模型处理。
:
--
FROM 114.249.224.*
上一篇
|
下一篇
|
同主题上篇
|
同主题下篇
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版