上面一个帽子问题1是一个常见问题,有确定答案,主要看其推理过程中逻辑陈述是否
严谨。
下面这个帽子问题2,是一个故意的问题,主要观察其推理是否会进入局面/片面最优的
陷阱。见附图
--------
在帽子问题1的回答中,它的推理逻辑只说,如果A看到B戴白帽子,那么A可以确定自己戴红帽子;如果A看到B戴红帽子,就无法确定自己戴什么颜色的帽子。实际上,这里的逻辑需要在前面应补上:因为C是想了一会儿才判断自己戴的是红帽子,所以,A和B不可能都是白帽子,否则C一眼就判断出自己的帽子颜色,而不必要等到根据A和B的第一步推理后才给出的答案。
而AI在回答之初对原问题的转述中,它似乎是忽略了"C想了一会儿"。但是如果没有这句话,逻辑上无法严谨收敛的唯一答案。重新问AI,刻意去掉"C想了一会儿",AI依然
会回答出相同的唯一肯定答案,这表明AI可能进入了某个局部最优的陷阱。
因为帽子问题1本身是一个很常见的逻辑推理问题,因此无法完全肯定局部陷阱的结果,
于是,为了验证这一点,刻意做了帽子问题2。帽子问题2和问题1很像,但是白帽子数增
加到3,这个问题的回答,容易看出这个问题本身就是一个陷阱,可以说无答案,或者说
存在不确定性,结果AI依然按照类似的推理得出了一个唯一且肯定的答案,而不是象人
类会说这个问题有问题或者说存在多个接近解。
因为DeepSeek对比o1强调reasoning,因此重点测试了其推理。至于知识部分属
Intelligence范畴,不属重点,尽管在这里也遇到过很多匪夷所思的错误,例如你问
他OpenAI的o1模型是什么,它会告诉你是GPT1,2018年版的,反复跟它说是2024年
的,也教不会。对比Copilot一般不会犯这类错误,即使他不肯定,也会给出不肯定
的回答,如果你教他(对其不肯定反馈一个进一步的信息),它至少当时会加上你的
补充信息后给出纠正回答,Copiloit更侧重知识,虽然更LOW。这一点就不多说了
【 在 anylinkin 的大作中提到: 】
: 问题原文是:
: 有三顶红帽子和两顶白帽子。将其中的三顶帽子分别戴在 A、B、C三人头上。
: 这三个人具有非常敏锐的观察能力和严谨的推理能力。且这三人每人都只能看见其他两
: ...................
--
修改:anylinkin FROM 223.104.41.*
FROM 223.104.40.*