看了deepseek团队介绍，感觉潜力很大

水木社区手机版

主题:看了deepseek团队介绍，感觉潜力很大
10楼|db1|2025-01-07 06:52:41|展开
论证一大堆扯，就看投入产出比，你说小模型是捷径，又没人拦着不让其他家走，也作出结果来嘛

【在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
:  这次训练只用了2000张卡。
:  另外坦白地说我一点也不觉得这个成果算多好，放一年前可以这么说，放现在只能是平均水准。
:  v3是moe模型，有256个37b小模型组成。简单的说就是你每次问题都会路由到某一个最适合解决这个问题的37b小模型处理。
:
--
FROM 114.249.224.*
13楼|db1|2025-01-07 12:23:34|展开
哈哈哈，我外行？说说你有多内行？哗众取宠的言论你倒是挺在行

【在 lvsoft (Lv(The Last Guardian)) 的大作中提到: 】
:  毛病吧？我前面列的3个模型不是结果？
:  这种超过所有开源模型的结果每2-3个月就会爆出一个，也就是你们这帮外行会当个事。
:  比如一年前的mistral 8x7b，这个就是8个7b模型，在当时就做到了开源大模型第一呀，你真以为deepseek这种事是第一次么？
:
--
FROM 114.249.224.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版