是喜还是忧?有种呜呼哀哉的
【 在 lvsoft 的大作中提到: 】
: 不是参数,现在用强化学习训练了。简单的说有点类似alphago早期和alphago zero的区别。前者基于人类知识和经验,后者完全抛弃人类知识,完全基于自己推理演绎。
: 对于gpt来说,现在的gpt4o就是前者,基于记忆,联想,直觉训练和给出答案。就跟人下意识拍脑袋的回答一样,只有相关性,往往禁不起推敲。
: 强化学习的版本叫gpt o1,不再基于相关性,而是基于推理,逻辑和因果性。现在已经可以用了,只不过配额很少一周只有30次对话。据说在编程,数学等需要强逻辑的领域,遥遥领先之前的版本。(大概百分之十几的正确率 vs 百分之七八十的正确率)
: ...................
--
FROM 183.239.46.*