补充问个问题,fai(s,a)里的a,如果是指这一步即将采用的a,那么这个a是通过fai*cita的结果输入softmax后形成的,中间用到了fai,而fai里又有a,不是矛盾了吗
【 在 ChesterW 的大作中提到: 】
: a是你定义的动作向量,可以是one-hot的,但和s状态向量拼接尽量用矩阵拼接,别用向量拼接,损失了分量间的语义
: E-pi[f(s,.)]是对当前状态s下动作分布的期望值,如果任意f(s, a)-E-pi[f(s, .)]等于0,那说明动作向量的方差为0,这是个确定性事件,无需做啥决策
--
FROM 49.66.38.*