Re: openai这次o1不太行

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇|同主题下篇

主题:Re: openai这次o1不太行
VincentGe|2024-09-14 11:08:45|
靠自推理，直观理解就是思维链的扩大化。

越是准确的前文越是能生成准确的后文

如果以前是问1+1等于几，直接回答 2
现在是先思考你问什么，这是一个简单的加法，求和，然后再返回2，中间有思路有过程，这样有利于正确的答案的提出。由于我们很多文本都是去除脚手架后的，缺乏哪些深入的细节和思维过程，因此添加过程后自然高了。

细节上就是RL的扩大版，对于前文按照某种段落生成思维树，做搜索，然后训练，类似于下题的自博弈。

【在 icome 的大作中提到: 】
:
: 数学推导是怎么实现的？
:
: 【在 VincentGe 的大作中提到: 】
: : 我看了openai的表现，感觉这次这个模型不太行，基本上怎么训练我大体上已经理解了，但是感觉这个方向不太对

#发自zSMTH@CDU.MP
--
FROM 113.143.106.*

上一篇|下一篇|同主题上篇|同主题下篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版