chatgpt之前有个instructgpt,那个才是RLHF的源头。普遍推测是chatgpt是instructgpt的后续。gpt4现在没有披露太多具体的信息。事实上目前与gpt4有关的官方渠道公开的可信消息很少,靠谱的信息基本也都是权威人士的推测为主。
另外生物大脑会经历这个减枝过程我当然也是知道的。但其实神经网络内部也已经观察到类似的现象了。而且描述这个现象的论文还挺早的,大概是4-5年前的论文了,翻出来太麻烦我就不翻了。
这一点不神奇,并且也不是支持更小的模型有更大价值的理由。ai领域对于生物脑的仿生是一直在推进的。比如现在的主要方向是sparse neural network。网络会被分区,部分激活,而不像现在动不动激活整个模型。这一点跟人脑也是很像的,只不过目前还没有做出相应的破圈的产品。
研究大模型的瘦身当然是有价值的,并且也是包括openai在内的一个很重要的研究方向,但基本上它的价值都只体现在对大模型的平替上。毕竟openai要提升服务的容量,给大模型减肥同时保持性能自然是很重要的课题。不过这个和chatgpt捅破天花板相比,重要性自然要差不少,属于细节的优化。而且这种事情在alphago上就已经有体现了。alphago fanhui版本用了176颗GPU,alphago lee的版本用了48颗GPU,到了master和zero就只用了4颗TPU了。用的算力不断下降,同时棋力不断上升。再比如chatgpt3.5现在就有2个版本,default版和legacy版。两者区别就是速度,很显然现在的default版就是瘦身后的模型,所以你说的事情已经是现在正在进行中了。
【 在 Oriphia 的大作中提到: 】
: GPT4和3.5的差别难道不是RLHF造成的吗,openAI自己说的用了175B的LM和6B的RM做RL,做完之后得到的LM已经把不符合人类语言习惯的部分刷掉了,所以才让GPT4比GPT3.5更符合人类思维逻辑。GPT4证明的是用6b的模型RLHF就可以大幅提升语言模型的可用性。
: 如果用GPT3.5的LM和20B的RM做RL,不见得比GPT4差。本来电脑的神经网络计算就是仿人类的,人类的神经突触就不是越多越好,在青春期发育时就会修剪多余的突触,从仿生学角度减block和减channel提升模型整体性能是可行的。
: [upload=1][/upload]
: ...................
--
修改:lvsoft FROM 114.222.223.*
FROM 114.222.223.*