水木社区手机版
首页
|版面-人工智能(AI)|
新版wap站已上线
返回
1/1
|
转到
主题:Attention is off by one
楼主
|
tgfbeta
|
2023-07-25 16:36:17
|
只看此ID
https://www.evanmiller.org/attention-is-off-by-one.html
Softmax有大问题,导致大模型会生成一些离群激活
这个bug是一个off-by-one bug
有bug的softmax在输入都是负无穷的时候,极限是1/k (k是向量的维度)
打补丁的softmax在这时是0
这对quantization可能狠重要
--
修改:tgfbeta FROM 125.38.177.*
FROM 125.38.177.*
1楼
|
asm2004
|
2023-07-26 07:42:57
|
只看此ID
bug相当于千年虫?
--
FROM 223.104.42.*
2楼
|
ywypc
|
2023-07-26 13:44:18
|
只看此ID
搬运hacker news?早有了
【 在 tgfbeta 的大作中提到: 】
:
https://www.evanmiller.org/attention-is-off-by-one.html
:
: Softmax有大问题,导致大模型会生成一些离群激活
:
: 这个bug是一个off-by-one bug
:
: 有bug的softmax在输入都是负无穷
: ..................
发自「今日水木 on iPhone 13 Pro Max」
--
FROM 124.217.189.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版