水木社区手机版
首页
|版面-编程技术(Programming)|
新版wap站已上线
返回
1/1
|
转到
主题:看了deepseek团队介绍,感觉潜力很大
10楼
|
db1
|
2025-01-07 06:52:41
|
展开
论证一大堆扯,就看投入产出比,你说小模型是捷径,又没人拦着不让其他家走,也作出结果来嘛
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
: 这次训练只用了2000张卡。
: 另外坦白地说我一点也不觉得这个成果算多好,放一年前可以这么说,放现在只能是平均水准。
: v3是moe模型,有256个37b小模型组成。简单的说就是你每次问题都会路由到某一个最适合解决这个问题的37b小模型处理。
:
--
FROM 114.249.224.*
13楼
|
db1
|
2025-01-07 12:23:34
|
展开
哈哈哈,我外行?说说你有多内行?哗众取宠的言论你倒是挺在行
【 在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
: 毛病吧?我前面列的3个模型不是结果?
: 这种超过所有开源模型的结果每2-3个月就会爆出一个,也就是你们这帮外行会当个事。
: 比如一年前的mistral 8x7b,这个就是8个7b模型,在当时就做到了开源大模型第一呀,你真以为deepseek这种事是第一次么?
:
--
FROM 114.249.224.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版