闭源归闭源,论文的方法都是公开的。各种xxgo的开源实现也都是根据论文复现的。
block不是探索深度,是网络中的一个核心结构,因为alphago时代resnet刚好诞生,resnet定义了一个残差结构并且允许大量堆叠。所以40blocks意思是堆叠40个残差块,这里可以理解为网络深度。用生物来对比相当于脑容量。
更大更深的网络模型能力上限一定是大于更小更浅的网络的,这个不用怀疑,整个ai的发展历程都是围绕这一点展开的。但更大的网络要挖掘出它上限的难度也越大,也会需要更多的训练时间和更多的训练数据。所以你会看到60b的算力不如40b,但这只是一个现象,不是一个定律。事实上神经网络是个难以想象的庞大的高维空间,维度越高空间是越稀疏的,想在里面找到最优解/较优解(事实上最优解是别想了)的难度也会指数上升。这里指数上升的速度也远不够快,用这个词只是因为这个词人类还能理解。神经网络里面的很多尺度规模,都远超人类常识能理解的范畴。事实上你可以理解为摩尔定律这种翻翻又翻翻的指数提升速度,对于搜索速度的提升,只改变了一点点可以忽略的常数项。所以虽然大家都在说ai需要海量算力海量数据,但其实算力和数据只是最最基本的要求,起决定性因素的是方法。这就好比说成功必须要努力,但其实努力谁都会根本就不重要,更重要的还是天赋和运气。
回到chatgpt,chatgpt-3.5和gpt3在网络规模上没啥差别,但表现却是天上地下。作为类比,google团队的palm已经到540B规模了,是gpt3/chatgpt3.5的三倍,表现依然距离chatgpt3.5都差得远。国内有个悟道,更是早就达到1.75T的参数规模,是gpt3的10倍。但我不说可能都没几个人听说过。现在的格局就是gpt4独一档,chatgpt3.5独一档,下面各家群魔乱舞还跟没头苍蝇似的在找演进的方向。gpt4目前没有开放参数,但根据它的速度,能力,上下文记忆力,普遍推测模型尺寸大概也就是在palm这个尺度,400B上下。(有很多100T的推测,这种太扯淡了不用看)
所以你得出的结论是片面的。不存在模型到达一定规模后强度会下降这种说法。目前观察到的现象是模型的规模越大,它的能力会线性增强,或者是忽然涌现,以及会出现先下降后提升的U型。你看到的现象更多的是更难训练所导致的问题。这些都可以从各种论文中找到佐证。
【 在 Oriphia 的大作中提到: 】
: zero和go都是闭源的,不好做对比,我拿相当于zero的自训练模型kataGo做例子。
: 目前流行的kataGo模型规模有3个,分别是20b 40b 60b(blocks,可理解为探索深度,还有一个参数channal,理解为探索广度),60b训练好的模型的大小是40b的三倍,每步花费时间是两倍。但现在通过调整b和c的权重,训练出来的棋力最高的模型是40b的,训练时间达到900盘以后,强度就不会提升了。
: 如果使用低算力显卡,2秒一步规则下最强的是新开发的18b模型。
: ...................


--
修改:lvsoft FROM 114.222.223.*
FROM 114.222.223.*