【 以下文字转载自 Stock 讨论区 】
发信人: anylinkin (ALK), 信区: Stock
标 题: 外网又谣传DeepSeek R2将发布 ,称其ARC-AGI测试超过OpenAI o3
发信站: 水木社区 (Sun Mar 23 08:07:10 2025), 站内
外网又开始谣传DeepSeek R2 即将发布,称其ARC-AGI基准测试超过OpenAI 03
rumor说,DS R2的ARC-AGI测试结果为90%。而目前这项基准测结果最好的分值是OpenAI O3,其分值为87.5%。其次是claudAI数值为70%。DeepSeek R1的分数为15.8%,其他模型暂缺乏相关测试数据。
ARC-AGI基准测试用于衡量一个模型接近AGI的水平。ARC-AGI(Abstraction and Reasoning Corpus - Artificial General Intelligence)是一个专门用于评估AI系统通用智能能力的基准测试。它强调抽象推理和泛化能力,而非单纯的记忆或模式匹配能力。AGI是AI模型目前发展状态的一个主要方向。
目前外网AI社区因为这个rumor正在又一波将信将疑的high中。
因为上次DS R1凭借“低训练成本而接近O1水平”的propagenda搅动了AI社区(出现一波AI竞相发布更新模型),以及所谓开源策略维持的较长热度,带动东大科技板块股票大涨,并打击西大英伟达等股价大跌,引发“东升西降”的一波propagenda。所以,在经过两个月后多家AI竞争降温、现阶段AI实用性价值的讨论与科技股的炒作退潮、“东升西降”的言论转入冷静理性时,市场对迟迟不见更新的DS R2自然充满期待,希望其能再次象DS R1那样再次搅动社区与市场。
然而,也有些人表示,近期关于DS R2的rumor出现了好几波了,rumor的源头都是一些不太知名或无AI无关的海外ID,且多数rumor都被证伪,有人怀疑有运作的意图。
还有人表示,单纯强调ARC-AGI的基准测试结果,可能导致其他一些方面被忽视或弱化。ARC-AGI测试的提出者已经警告模型训练时不要单纯针对这项benchmark作优化。
作为股民,可能值得关注R2出来时,或会有propagenda下的一波短线刺激。但这波刺激,如果会出现,估计也不会持续很长,建议作好炒作规划。
--
修改:anylinkin FROM 223.104.3.*
FROM 223.104.3.*