结论是 最优策略之一(可能有多个)是确定性映射 pi*(s), 而非条件概率pi*(a|s),
但是如何证明这一点呢(小于等于号容易证明)?
某些材料通过在最优pi*(s)上用确定性条件概率 构造证明:
pi(a|s) = 1{if a = argmax_a q*(s,a)} where v*(s) < q*(s,a)
q*(s,a), otherwise
其认为这个构造策略的q(s,a; pi)在所有元素上和 q*(s,a)相同,这个应该是错误的: 因为在环境确定的情况下,按照Bellman期望方程,给定一个策略,即得到了一个动作值函数 或 状态值函数,这种虽然只改变了一点的做法,一般情况下会导致状态值函数或动作值函数发生变化!
有那个大神能帮证明这点(或者退化情形,怎么证明最优策略一定有确定映射情形,我尝试了变分,推导不出来得到的结构一定是常数函数)?
https://mathoverflow.net/questions/321701/proof-of-bellman-optimality-equation-for-finite-markov-decision-processes
--
FROM 183.237.174.*