OpenAI 最强模型被曝造假！提前获取测试题，顶级数学家被蒙在鼓

水木社区手机版

主题:OpenAI 最强模型被曝造假！提前获取测试题，顶级数学家被蒙在鼓
楼主|zszqzzzf|2025-01-20 16:10:23|展开
【以下文字转载自 NewExpress 讨论区】
发信人: seracron (徐老师粉丝天团 @群号311040483), 信区: NewExpress
标题: OpenAI 最强模型被曝造假！提前获取测试题，顶级数学家被蒙在鼓
发信站: 水木社区 (Mon Jan 20 16:09:48 2025), 站内

近日，OpenAI 再次陷入了舆论风波。
事件源于 LessWrong 论坛上的一则爆料。一位名为「Meemi」的 Epoch AI 承包商透露，OpenAI 不仅为 FrontierMath 基准测试提供资金支持，还获得了测试题库的特权访问权。
而这或许也是 o3 的成绩在短时间内获得极大提高的重要原因。但这个信息直到去年 12 月 20 日 o3 发布时，才由 Epoch AI 对外公布。
消息一出，瞬间在 AI 圈引起轩然大波。
因为这很难不让网友怀疑 OpenAI 是既当裁判，也当选手。吃瓜之前，需要给不熟悉的朋友先捋事件的背景信息。
去年 12 月，OpenAI 正式发布了新一代号称突破 AI 极限的 o3 模型。
在其中一项名为 FrontierMath 的 AI 数学基准测试（成绩单）中，OpenAI 以 25.2% 的准确率遥遥领先，远超 GPT-4 和 Gemini 等模型不足 2% 的成绩。

FrontierMath 是一个分量极重的高级数学推理能力评估基准。它由 Epoch AI 联手 60 多位顶级数学家共同打造，参与者包括多位菲尔兹奖得主和国际数学奥林匹克竞赛的资深命题人。
该基准包含数百个原创且极具挑战性的数学问题，覆盖现代数学的多个主要分支，如数论、实分析、代数几何、范畴论等。
2006 年菲尔兹奖得主、数学天才陶哲轩曾评价 FrontierMath 的问题「极其具有挑战性」，并认为这些问题只能由领域专家来解决。
他指出，即使是人类专家，解决这些问题也需要数小时甚至数天的努力。
--
FROM 210.45.114.*