我认为知识压缩这种说法有故意向人类智能方向引导的嫌疑,attention用相关性提取特征,FF layer是分类器,这种结构和cnn没有本质的不同。
【 在 tgfbeta 的大作中提到: 】
: 知识压缩一般认为是在FF layer
: 而attention是相关性
: 我确定,比如生成式大语言模型在推理时,确定的输入会有一个确定的词表概率输出,然后解码成文本时引入随机数。在训练时如果固定所用超参数和随机种子,确定的数据就会训练出一个确定的模型。
: ...................
--
FROM 125.69.12.*