深入理解也很简单啊
每个操作都是可微的,然后反向传导就是个对误差函数数值求梯度再乘以学习率的过程
误差函数作为一个复合函数,梯度的求导实际上是解一个计算图,这个工作被python完成后变成大量矩阵计算任务,分配到GPU完成
框架干的事情,就是把麻烦的东西包起来。比如动态学习率变化的经验算法,各种算子,奇奇怪怪的误差函数之类
【 在 GoGoRoger 的大作中提到: 】
: 昨天看了一天tensorflow,其实调调api也挺简单的,要深入了解就很难了,估计也没几个人真懂。
--
FROM 155.64.23.*