这个工作牛逼了,幸亏听了一下。强化学习的理论发展速度真是出乎意料
19年deepmind的agarwal一个结果是,softmax policy gradient可以渐进趋近全局最优,真是颠覆认知的里程碑式的结果
https://www.Y.com/watch?v=_owDKi_r5OY
今天cmd的chi yuejie把结果改进到指数趋近全局最优,而且用信息熵作为regularization项改进算法速度
现在中美都把海量的经费砸在AI上,钱真不是白砸的
--
修改:vinbo FROM 211.161.249.*
FROM 202.121.181.*