水木社区手机版
首页
|版面-数学工具(MathTools)|
新版wap站已上线
返回
1/1
|
转到
主题:Bellman最优性方程 v*(s) = max_a q*(s, a)怎么证明?
1楼
|
jtyx
|
2020-06-03 17:51:25
|
展开
因为我知道我是学的工具都有,一休亲肖邦
【 在 citihome 的大作中提到: 】
: 结论是 最优策略之一(可能有多个)是确定性映射 pi*(s), 而非条件概率pi*(a|s),
: 但是如何证明这一点呢(小于等于号容易证明)?
: 某些材料通过在最优pi*(s)上用确定性条件概率 构造证明:
: ...................
--来自微水木3.5.1
--
FROM 120.244.162.*
2楼
|
jtyx
|
2020-06-03 17:52:16
|
展开
因为我知道数学工因为我知道数学工具都有小计数器具
【 在 jtyx 的大作中提到: 】
: 因为我知道我是学的工具都有,一休亲肖邦
: 【 在 citihome 的大作中提到: 】
: : 结论是 最优策略之一(可能有多个)是确定性映射 pi*(s), 而非条件概率pi*(a|s),
: ...................
--来自微水木3.5.1
--
FROM 120.244.162.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版