不是参数,现在用强化学习训练了。简单的说有点类似alphago早期和alphago zero的区别。前者基于人类知识和经验,后者完全抛弃人类知识,完全基于自己推理演绎。
对于gpt来说,现在的gpt4o就是前者,基于记忆,联想,直觉训练和给出答案。就跟人下意识拍脑袋的回答一样,只有相关性,往往禁不起推敲。
强化学习的版本叫gpt o1,不再基于相关性,而是基于推理,逻辑和因果性。现在已经可以用了,只不过配额很少一周只有30次对话。据说在编程,数学等需要强逻辑的领域,遥遥领先之前的版本。(大概百分之十几的正确率 vs 百分之七八十的正确率)
有人测试过把今年的高考数学卷丢进去,直接拿了满分。而且用的还是o1-mini。
简单的说,通往AGI的道路现在已经没有任何障碍了。大家祈祷吧。
【 在 hgoldfish 的大作中提到: 】
: 参数再上一个数量级能解决这个问题吗?
: 今年的 LLM 比去年强大很多了啊。去年各种扮我奶奶的 BUG 好多。
:
--
修改:lvsoft FROM 222.68.50.*
FROM 222.68.50.*