可以。这里公式两侧为相同策略pi,是对策略pi的evaluation。这个得数学基础是动态
规划。说具体一点,每次update是对所有state,不断逼近真实值。这些都可以证明
【 在 AAAXIA (侠以武犯禁) 的大作中提到: 】
: 周志华的书上是这么推导Q学习的公式,见图中(16.31),不知道怎么推导出来的。
: 而其它许多参考资料上没有推导,直接就认为Q学习应该这么更新Q函数,这个当然也可
以,神经网络或者优化上有些问题就是这么给定的。但是我想搞懂的就是这个公式到底能
不能推导出来。
: 不知道有没有人帮忙解惑,谢谢!
--
FROM 1.90.254.*