靠自推理,直观理解就是思维链的扩大化。
越是准确的前文越是能生成准确的后文
如果以前是问1+1等于几,直接回答 2
现在是 先思考你问什么,这是一个简单的加法,求和,然后再返回2,中间有思路有过程,这样有利于正确的答案的提出。由于我们很多文本都是去除脚手架后的,缺乏哪些深入的细节和思维过程,因此添加过程后自然高了。
细节上就是RL的扩大版,对于前文按照某种段落生成思维树,做搜索,然后训练,类似于下题的自博弈。
【 在 icome 的大作中提到: 】
:
: 数学推导是怎么实现的?
:
: 【 在 VincentGe 的大作中提到: 】
: : 我看了openai的表现,感觉这次这个模型不太行,基本上怎么训练我大体上已经理解了,但是感觉这个方向不太对
#发自zSMTH@CDU.MP
--
FROM 113.143.106.*