水木社区手机版
首页
|版面-青年教师(QingJiao)|
新版wap站已上线
展开
|
楼主
|
同主题展开
|
溯源
|
返回
上一篇
|
下一篇
|
同主题上篇
主题:Re: 求问一个加强学习的问题
freethirteen
|
2021-09-04 23:22:51
|
reward 就是Id 下降而已
具体大概如下 是Id=1/2*(Vg-Vth)^2 Vth是固定参数 Vg是参数 reward=1 if Id decreases
用如上公式简历的gym环境 来优化MLP/PPO2的policy
我理解这样应该很容易把参数Vg优化到等于Vth
请大家给评价下这样符合逻辑吗
【 在 tianiu 的大作中提到: 】
: reward是啥? ...
--
FROM 73.93.171.*
上一篇
|
下一篇
|
同主题上篇
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版