Rl部分和人对齐偏少,目标过于偏重于想赢。
【 在 anylinkin 的大作中提到: 】
: 关于这个话题,与o3-mini reason, Grok3 beta think,copilot,ds r1 deepthink等模型进行了交流,总结下来存在三种可能性:
: 可能性1. r1为达目的而有意欺骗的聪明策略--这是网上很多网友嬉笑认为的
: 可能性2. r1为试错并纠正的一种尝试,无意欺骗,看起来像欺骗(被旁观人类理解成)
: ...................
--
FROM 39.144.137.*