Re: glm5.1现在很强了

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: glm5.1现在很强了
lvsoft|2026-04-22 20:13:07|
没啥意义。
现在的benchmark，包括hle在内都是marketing的作用。
比如，hle的题目中有不少题目的标准答案都是错的，所以hle分数考太高，反而是很奇怪的事情。

以上不是我说的，是亚马逊搞agi的首席应用科学家说的。

【在 z16166 的大作中提到: 】
: 据官方披露，Kimi K2.6 在博士级难度的完整版“终极人类考试”（Humanity's Last Exam）、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中，均取得了行业领先的成绩，表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
:
--
FROM 116.230.107.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版