8b没啥好比的,只能搞搞microbench。
有一种说法是未来8b模型也可以达到sota的质量,因为现在的llm学的太杂,记了太多无聊的东西了。
比如很多bench里面都会有知识部分的考核,其实这种背书本一样的考核完全没有意义,更大概率是在浪费权重。
但眼下肯定是还没发展到这种状态。
我比较好奇的是deepseek r1-671b vs claude sonnet 3.5的情况。
按理说加上了思维链可以提升代码能力一大截,而且它这种只需要激活37b的模型特别适合进行深度思考。
deepseek v3我评估它的coding能力不算强,但比起之前还是有很大提升的,按理说加上思维链之后有概率达到最强coding模型。
但目前我只看到一个真实评测,结论是依然不如claude这种没有深度思考加持的模型。
这个结果让我有点诧异,再等等看看有没有更多的测试吧。
【 在 foxknox 的大作中提到: 】
: 发信人: foxknox (3爷), 信区: NewExpress
: 标 题: Deepseek-R1:8b VS LLAMA3.2:3b实际代码比较
: 发信站: 水木社区 (Wed Jan 22 11:17:16 2025), 站内
: ...................
--
修改:lvsoft FROM 222.68.48.*
FROM 222.68.48.*