革命性的东西,是当代互联网,手机一般划时代的大事
【 在 zhuxiaozhu 的大作中提到: 】
: Q:详细解释一下transformer decoder 中的2个self-attention的区别
: A: 在Transformer Decoder中,有两个Self-Attention,分别称为Multi-Head Self-Attention和Encoder-Decoder Self-Attention。它们之间的区别在于它们计算注意力的方式不同,并且处理的输入也不同。
: Multi-Head Self-Attention
: ...................
--
FROM 113.81.1.*