没啥意义。
现在的benchmark,包括hle在内都是marketing的作用。
比如,hle的题目中有不少题目的标准答案都是错的,所以hle分数考太高,反而是很奇怪的事情。
以上不是我说的,是亚马逊搞agi的首席应用科学家说的。
【 在 z16166 的大作中提到: 】
: 据官方披露,Kimi K2.6 在博士级难度的完整版“终极人类考试”(Humanity's Last Exam)、评估真实软件工程能力的 SWE-Bench Pro 以及 Agent 深度检索基准 DeepSearchQA 等测试中,均取得了行业领先的成绩,表现持平或优于 GPT-5.4、Claude Opus 4.6 和 Gemini 3.1 Pro 等闭源模型。
:
--
FROM 116.230.107.*