- 主题:求问一个加强学习的问题
感觉这里的学术大牛更多,特来求问。我想要用加强学习解决一个工作中类似于MOSFET参数(Id Vg 等等)调试的问题。我准备用测的参数与结果的数据先用CNN做一个模型,然后用这个CNN模型作为环境让加强学习进行学习 比如用MLP,最终想要训练一个policy可以实现对结果的优化。请问这么做可行吗。谢谢
--
FROM 172.58.32.*
是RL么
--
FROM 116.6.234.*
reward是啥?
【 在 freethirteen 的大作中提到: 】
: 感觉这里的学术大牛更多,特来求问。我想要用加强学习解决一个工作中类似于MOSFET参数(Id Vg 等等)调试的问题。我准备用测的参数与结果的数据先用CNN做一个模型,然后用这个CNN模型作为环境让加强学习进行学习 比如用MLP,最终想要训练一个policy可以实现对结果的优化。请问这么做可行吗。谢谢
--
FROM 219.228.135.*
reward 就是Id 下降而已
具体大概如下 是Id=1/2*(Vg-Vth)^2 Vth是固定参数 Vg是参数 reward=1 if Id decreases
用如上公式简历的gym环境 来优化MLP/PPO2的policy
我理解这样应该很容易把参数Vg优化到等于Vth
请大家给评价下这样符合逻辑吗
【 在 tianiu 的大作中提到: 】
: reward是啥? ...
--
FROM 73.93.171.*