这个问题我特意问过ChatGPT,结论是即便是确定的超参数和随机种子,在不同的设备上训练也不会产生确定的模型。原因是浮点数计算在不同的GPU上会有微小的差别,这些差别累积起来就会对模型产生很大的影响。
【 在 netvideo 的大作中提到: 】
: 我确定,比如生成式大语言模型在推理时,确定的输入会有一个确定的词表概率输出,然后解码成文本时引入随机数。在训练时如果固定所用超参数和随机种子,确定的数据就会训练出一个确定的模型。
: 知识的压缩不是本质,相关性才是本质,大语言模型学习的是词的相关性,图像识别学习的是像素的相关性
:
--
FROM 112.41.21.*