水木社区手机版
首页
|版面-青年教师(QingJiao)|
新版wap站已上线
返回
1/1
|
转到
主题:求问一个加强学习的问题
楼主
|
freethirteen
|
2021-09-04 13:16:36
|
展开
感觉这里的学术大牛更多,特来求问。我想要用加强学习解决一个工作中类似于MOSFET参数(Id Vg 等等)调试的问题。我准备用测的参数与结果的数据先用CNN做一个模型,然后用这个CNN模型作为环境让加强学习进行学习 比如用MLP,最终想要训练一个policy可以实现对结果的优化。请问这么做可行吗。谢谢
--
FROM 172.58.32.*
3楼
|
freethirteen
|
2021-09-04 23:22:51
|
展开
reward 就是Id 下降而已
具体大概如下 是Id=1/2*(Vg-Vth)^2 Vth是固定参数 Vg是参数 reward=1 if Id decreases
用如上公式简历的gym环境 来优化MLP/PPO2的policy
我理解这样应该很容易把参数Vg优化到等于Vth
请大家给评价下这样符合逻辑吗
【 在 tianiu 的大作中提到: 】
: reward是啥? ...
--
FROM 73.93.171.*
1/1
|
转到
选择讨论区
首页
|
分区
|
热推
BYR-Team
©
2010.
KBS Dev-Team
©
2011
登录完整版