测了下Deepseek-reasoning，不如Mistral-Large-2

水木社区手机版

主题:测了下Deepseek-reasoning，不如Mistral-Large-2
楼主|Xjt|2025-01-23 17:53:44|展开
测试场景：
长达 10K+ tokens 输入的Pull request描述包括代码，然后让它做PR review。

产生了PR review后，让Claude 3.5 Sonnet V2进行评价。目前的评价结果是：
Mistral-Large-2(24.11版本) > Mistral-Codestral (25.01版本) >> Deepseek-reasoning(也测了Deepseek-V3也不行)

我个人感觉，似乎Deepseek对长上下文以及长输出 (比如pr review)的处理能力还是有限。而也许目前模型还仅仅能在短上下文和短输出的场景上有比较好的表现？
--
修改:Xjt FROM 223.104.211.*
FROM 223.104.211.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版