水木社区手机版
首页
|版面-人工智能(AI)|
新版wap站已上线
展开
|
楼主
|
同主题展开
|
返回
上一篇
|
下一篇
|
同主题下篇
主题:Attention is off by one
tgfbeta
|
2023-07-25 16:36:17
|
https://www.evanmiller.org/attention-is-off-by-one.html
Softmax有大问题,导致大模型会生成一些离群激活
这个bug是一个off-by-one bug
有bug的softmax在输入都是负无穷的时候,极限是1/k (k是向量的维度)
打补丁的softmax在这时是0
这对quantization可能狠重要
--
修改:tgfbeta FROM 125.38.177.*
FROM 125.38.177.*
上一篇
|
下一篇
|
同主题下篇
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版