水木社区手机版
首页
|版面-人工智能(AI)|
新版wap站已上线
展开
|
楼主
|
同主题展开
|
溯源
|
返回
上一篇
|
下一篇
|
同主题上篇
主题:Re: mHC降低长链推理的崩溃 但或不能降低幻觉率而让其更难察觉
weiwallz
|
2026-04-30 21:47:52
|
我很纳闷,mHC跟长推理链条有关系吗?
mHC实际上是在给字节的HC擦屁股,在获得HC的一些改善的同时,用双随矩阵约束多个残差流,不至于过度放大或者过度缩小总的残差信息,从而解决HC带来的梯度爆炸和梯度消失问题
上下文加长,主要是CSA HCA和滑动窗口的贡献吧
【 在 anylinkin 的大作中提到: 】
: mHC方法有助于降低长链推理的崩溃,但可能并不能降低推理的幻觉率,反而可能让这种
: 幻觉更难察觉(抛砖引玉交流版)
:
--
FROM 113.120.108.*
上一篇
|
下一篇
|
同主题上篇
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版