感觉这里的学术大牛多,特来求问。
我想要用加强学习解决一个工作中类似于MOSFET参数(Id Vg 等等)调试的问题。我准备用测的参数与结果的数据先用CNN做一个模型,然后用这个CNN模型作为环境让加强学习进行学习 比如用MLP,最终想要训练一个policy可以实现对结果的优化。其中reward 就是Id 下降而已,参数是Vg。
仅就RL部分,具体大概如下 是Id=1/2*(Vg-Vth)^2 Vth是固定参数,Vg是参数,reward=1 if Id decreases。
用如上公式建立的gym环境 来优化MLP/PPO2的policy。
我理解这样应该很容易把参数Vg优化到等于Vth
请大家给评价下这样用RL符合逻辑吗
--
FROM 73.93.171.*