这是对的,不同型号的设备是有差异,这个差异是不同实现之间的差异,比如FP16与BF16精度的差异,还有不同的库产生的随机数可能有差异,这个是和AI原理无关,只与不同实现相关的,用相同型号的设备与相同版本的软件库就可以消除。
【 在 booble 的大作中提到: 】
: 这个问题我特意问过ChatGPT,结论是即便是确定的超参数和随机种子,在不同的设备上训练也不会产生确定的模型。原因是浮点数计算在不同的GPU上会有微小的差别,这些差别累积起来就会对模型产生很大的影响。
:
--
FROM 125.69.12.*