Re: seminar 20210625 Policy Optimization in Reinforcement L

水木社区手机版

展开|楼主|同主题展开|溯源|返回

上一篇|下一篇|同主题上篇

主题:Re: seminar 20210625 Policy Optimization in Reinforcement L
vinbo|2021-06-25 22:24:32|
这个工作牛逼了，幸亏听了一下。强化学习的理论发展速度真是出乎意料
19年deepmind的agarwal一个结果是，softmax policy gradient可以渐进趋近全局最优，真是颠覆认知的里程碑式的结果
https://www.Y.com/watch?v=_owDKi_r5OY
今天cmd的chi yuejie把结果改进到指数趋近全局最优，而且用信息熵作为regularization项改进算法速度

现在中美都把海量的经费砸在AI上，钱真不是白砸的
--
修改:vinbo FROM 211.161.249.*
FROM 202.121.181.*

上一篇|下一篇|同主题上篇

BYR-Team©2010. KBS Dev-Team©2011 登录完整版