问了,还是不太懂,更不懂“自注意力机制”是如何起作用的。以前看过一篇解释“自注意力机制”的文章,没看懂,就放弃了。你有好的解释“自注意力机制”的文章吗?谢谢
“自注意力机制:模型会计算输入序列中每个token之间的关系,决定哪些token对当前token的生成最为重要。这一机制使得模型能够关注上下文信息。”————如何决定哪些token对当前token的生成最为重要?
【 在 Alohaaaa 的大作中提到: 】
: 我前两天问过 deepseek ,感觉回答的还不错
: 你可以问问
: 发自「快看水母 于 BVL-AN00」
--
FROM 114.104.109.*