最近尝试图像序列预测方面的东西,打算用深度学习算法(convlstm模型)。很多文献都提到用encoder-decoder的结构,对此有很多问题不解:
1、这种结构的好处?如果不用这种结构,直接堆叠layer构建模型训练,与这种方法有什么区别?
2、如果使用这种结构,encoder的输入是否就是x_train?decoder的输入是否就是y_train? 需要考虑shift吗,怎么考虑?
3、如果有图像的semantic segmentation需求,采用这种结构是否有天然的好处?
希望得到大家的指教,如果有好的例程,也请大家给个链接。谢谢
--
修改:DragonDon FROM 117.174.29.*
FROM 117.174.29.*