这次训练只用了2000张卡。
另外坦白地说我一点也不觉得这个成果算多好,放一年前可以这么说,放现在只能是平均水准。
v3是moe模型,有256个37b小模型组成。简单的说就是你每次问题都会路由到某一个最适合解决这个问题的37b小模型处理。
本质就是一个37b小模型,那可不就是便宜、速度快、成本低、易训练么?多大事。
回过头来可以再聊聊37b“小”模型追上gpt4o之类的,算不算强的问题。
事实上2024年业界都开始重视小模型了,这里比较王炸的是2024年中,google发布的gemma2,2个版本,大小分别是9b和27b。
以及2024年末微软的phi-4,这是一个14b模型,目前还没开源但在azure上可以使用而且开源也在路上,据评测说各方面也sota级的强大。
包括llama,虽然llama一般都是背景板,但llama3自己也用72b的体量超越了上代llama2 405b的性能。
注意上面这些模型的体量,这个时候你再来看看deepseek v3,用了256个37b的“小”模型,你还觉得是“很好的效果”么?
【 在 hgoldfish 的大作中提到: 】
: 他们为啥能用上万张卡就能做出很好的效果?
: 是在算法上面进行改进吗?
: 对了。最近硬件上,有啥针对 LLM 进行优化的方向吗?
: ...................
--
修改:lvsoft FROM 222.68.48.*
FROM 222.68.48.*