关于Q学习中公式的疑问

水木社区手机版

主题:关于Q学习中公式的疑问
1楼|Joseph2012|2020-02-05 16:07:49|展开
可以。这里公式两侧为相同策略pi，是对策略pi的evaluation。这个得数学基础是动态
规划。说具体一点，每次update是对所有state，不断逼近真实值。这些都可以证明

【在 AAAXIA (侠以武犯禁) 的大作中提到: 】
: 周志华的书上是这么推导Q学习的公式，见图中(16.31)，不知道怎么推导出来的。
: 而其它许多参考资料上没有推导，直接就认为Q学习应该这么更新Q函数，这个当然也可
以，神经网络或者优化上有些问题就是这么给定的。但是我想搞懂的就是这个公式到底能
不能推导出来。
: 不知道有没有人帮忙解惑，谢谢！
--
FROM 1.90.254.*

BYR-Team©2010. KBS Dev-Team©2011 登录完整版