1. 苹果的那篇论文<<GSM-Symbolic: Understanding the Limitations of
Mathematical Reasoning in Large Language Models>> 引起了很多人对AI大模型推理
的质疑,认为AI大模型实际更像是pattern matching记忆器,并不是真正懂推理genuin
e reasoning)。
2. 本来想看一下这篇论文之后一些模型的GSM-Symbolic基准测试结果和GSM8K的对比,
是否依然存在一致性的较大差距。
结果发现,最近的一些模型,都没有再给出(没有找到)GSM-Symbolic基准测试结果了
。
()
有没有人构造或经历过1-2个简单好用的测试题目的例子,来证伪这些新的模型,依然在
GSM-Symbolic基准测试上,获得和GSM8K一致的准确率?
3. 不知道Outcome-Reward RL 和 Pattern Matching之间,是否会存在关系
就是说,强调结果奖励强化学习的模型,是否可能更易成为Pattern Matching的,而不
是真正的推理(genuine reasoning). 而强调过程奖励强化学习的模型,是否GSM-Sym
bolic基准测试的结果可能会更好。
--
FROM 223.104.40.*