GPT4和3.5的差别难道不是RLHF造成的吗,openAI自己说的用了175B的LM和6B的RM做RL,做完之后得到的LM已经把不符合人类语言习惯的部分刷掉了,所以才让GPT4比GPT3.5更符合人类思维逻辑。GPT4证明的是用6b的模型RLHF就可以大幅提升语言模型的可用性。
如果用GPT3.5的LM和20B的RM做RL,不见得比GPT4差。本来电脑的神经网络计算就是仿人类的,人类的神经突触就不是越多越好,在青春期发育时就会修剪多余的突触,从仿生学角度减block和减channel提升模型整体性能是可行的。

【 在 lvsoft 的大作中提到: 】
: 闭源归闭源,论文的方法都是公开的。各种xxgo的开源实现也都是根据论文复现的。
: block不是探索深度,是网络中的一个核心结构,因为alphago时代resnet刚好诞生,resnet定义了一个残差结构并且允许大量堆叠。所以40blocks意思是堆叠40个残差块,这里可以理解为网络深度。用生物来对比相当于脑容量。
: 更大更深的网络模型能力上限一定是大于更小更浅的网络的,这个不用怀疑,整个ai的发展历程都是围绕这一点展开的。但更大的网络要挖掘出它上限的难度也越大,也会需要更多的训练时间和更多的训练数据。所以你会看到60b的算力不如40b,但这只是一个现象,不是一个定律。事实上神经网络是个难以想象的庞大的高维空间,维度越高空间是越稀疏的,想在里面找到最优解/较优解(事实上最优解是别想了)的难度也会指数上升。这里指数上升的速度也远不够快,用这个词只是因为这个词人类还能理解。神经网络里面的很多尺度规模,都远超人类常识能理解的范畴。事实上你可以理解为摩尔定律这种翻翻又翻翻的指数提升速度,对于搜索速度的提升,只改变了一点点可以忽略的常数项。所以虽然大家都在说ai需要海量算力海量数据,但其实算力和数据只是最最基本的要求,起决定性因素的是方法。这就好比说成功必须要努力,但其实努力谁都会根本就不重要,更重要的还是天赋和运气。
: ...................
--
FROM 113.70.182.*