知识压缩一般认为是在FF layer
而attention是相关性
【 在 netvideo 的大作中提到: 】
我确定,比如生成式大语言模型在推理时,确定的输入会有一个确定的词表概率输出,然后解码成文本时引入随机数。在训练时如果固定所用超参数和随机种子,确定的数据就会训练出一个确定的模型。
知识的压缩不是本质,相关性才是本质,大语言模型学习的是词的相关性,图像识别学习的是像素的相关性
【 在 zzzer 的大作中提到: 】
: 你确定吗
: 本质就是对知识的压缩,而且是有损的,如何能完全恢复?
: 发自「今日水木 on iPhone 11」
--
FROM 60.24.249.*