补充问个问题,fai(s,a)里的a,如果是指这一步即将采用的a,那么这个a是通过fai*cita的结果输入softmax后形成的,中间用到了fai,而fai里又有a,不是矛盾了吗
【 在 Joseph2012 的大作中提到: 】
: 明白了,谢谢。如果加上去掉期望值的项,那么与softmax出来的pi正好满足
: competible条件。logit前面层共享参数,楼主可简单推导。
: 不过我还是觉得实践当中,没必要这么严格处理,保证Q_w是Q_theta(这是对Q_pi的无
: ...................
--
FROM 49.66.38.*