求问一个加强学习的问题

水木社区手机版

主题:求问一个加强学习的问题
楼主|freethirteen|2021-09-04 13:16:36|展开
感觉这里的学术大牛更多，特来求问。我想要用加强学习解决一个工作中类似于MOSFET参数（Id Vg 等等）调试的问题。我准备用测的参数与结果的数据先用CNN做一个模型，然后用这个CNN模型作为环境让加强学习进行学习比如用MLP，最终想要训练一个policy可以实现对结果的优化。请问这么做可行吗。谢谢
--
FROM 172.58.32.*
3楼|freethirteen|2021-09-04 23:22:51|展开
reward 就是Id 下降而已

具体大概如下是Id=1/2*(Vg-Vth)^2 Vth是固定参数 Vg是参数 reward=1 if Id decreases

用如上公式简历的gym环境来优化MLP/PPO2的policy

我理解这样应该很容易把参数Vg优化到等于Vth

请大家给评价下这样符合逻辑吗
【在 tianiu 的大作中提到: 】
: reward是啥？ ...
--
FROM 73.93.171.*