这种事情很常见,我5年前做强化学习算法,发现结果不稳定,就尝试了多做几轮,用均值标准差归一化来估计奖励函数,结果算法更稳定,效果更好,发了一篇小论文,当时没有意识到这个方法的重要性,也没什么泡泡。
去年Deepseek用同样方法,改进了大模型训练,这个方法一下子就火起来,我相信他们确实没看到我的文章,而且他们做出了更重要的成果,我也服气。
【 在 letitbe321 的大作中提到: 】
: 只是没解决质量问题。但是这个假想肯定在一些会上交流过。杨米尔斯方程只是做了推广到数学的非阿贝尔群,而且是强行发表的,没被reject。这种情况好多,自己正在研究的idea在学术会议交流,被有心者抢先scoop。
--
FROM 172.235.61.*