测试场景:
长达 10K+ tokens 输入的Pull request描述包括代码,然后让它做PR review。
产生了PR review后,让Claude 3.5 Sonnet V2进行评价。目前的评价结果是:
Mistral-Large-2(24.11版本) > Mistral-Codestral (25.01版本) >> Deepseek-reasoning(也测了Deepseek-V3也不行)
我个人感觉,似乎Deepseek对 长上下文以及长输出 (比如pr review)的处理能力还是有限。而也许目前模型还仅仅能在 短上下文和短输出 的场景上有比较好的表现?
--
修改:Xjt FROM 223.104.211.*
FROM 223.104.211.*