- 主题:神经网络炼丹失败,求ML大神指点迷津
最简单的Kaggle房价预测题目,我用Ridge随便跑了下,cross validation的mse可以跑到0.135左右
而用神经网络跑,针对训练集,mse都在0.16左右,我企图增大模型对训练集过拟合都没法做到降低loss,最终都是收敛到0.16就怎么也不下降了
网上能找到的方法都试遍了,什么参数是否正则归一(是或者不是都试了),用Relu或者leak relu,用Adam优化其,调整学习步长,增加网络层数(最多加到20层每层2000个节点)。每次要不是根本loss不收敛,要不就是收敛到局部最优解但mse只有0.16还不如ridge随便跑跑的结果好
我现在也不求什么cross validation有好结果,我现在就想对训练集能做到过拟合,结果都做不到,我太难了。。。
--
FROM 101.80.249.*
用残差神经网络霸王硬上弓看看。
【 在 Xjt 的大作中提到: 】
: 最简单的Kaggle房价预测题目,我用Ridge随便跑了下,cross validation的mse可以跑到0.135左右
: 而用神经网络跑,针对训练集,mse都在0.16左右,我企图增大模型对训练集过拟合都没法做到降低loss,最终都是收敛到0.16就怎么也不下降了
: 网上能找到的方法都试遍了,什么参数是否正则归一(是或者不是都试了),用Relu或者leak relu,用Adam优化其,调整学习步长,增加网络层数(最多加到20层每层2000个节点)。每次要不是根本loss不收敛,要不就是收敛到局部最优解但mse只有0.16还不如ridge随便跑跑的结果好
: ...................
--
FROM 112.47.99.*
训练数据预处理没有?例如数据归一化。
保证能收敛之后,若还想提高,看能否数据扩增。图片识别可以通过翻转平移来,
不清楚你的题目能否进行类似的数据扩增
【 在 Xjt 的大作中提到: 】
: 最简单的Kaggle房价预测题目,我用Ridge随便跑了下,cross validation的mse可以跑到0.135左右
: 而用神经网络跑,针对训练集,mse都在0.16左右,我企图增大模型对训练集过拟合都没法做到降低loss,最终都是收敛到0.16就怎么也不下降了
: 网上能找到的方法都试遍了,什么参数是否正则归一(是或者不是都试了),用Relu或者leak relu,用Adam优化其,调整学习步长,增加网络层数(最多加到20层每层2000个节点)。每次要不是根本loss不收敛,要不就是收敛到局部最优解但mse只有0.16还不如ridge随便跑跑的结果好
: ...................
--
FROM 116.230.171.*
谢谢指点,我来试试
【 在 zszqzzzf 的大作中提到: 】
: 用残差神经网络霸王硬上弓看看。
:
--
FROM 101.80.249.*
处理了,one-hot,去除null,正则、归一,都弄了。我现在最头痛的是同样的数据用ridge随便拟合下做cv都能到0.13,而神经网络对训练集mse都有0.16
【 在 ds9 的大作中提到: 】
: 训练数据预处理没有?例如数据归一化。
: 保证能收敛之后,若还想提高,看能否数据扩增。图片识别可以通过翻转平移来,
: 不清楚你的题目能否进行类似的数据扩增
: ...................
--
修改:Xjt FROM 101.80.249.*
FROM 101.80.249.*
模型退化了?
重新初始化网络训练或者换另一种随机数生成函数对网络初始化再重新训练看看?
其实就是可能一开始时随机生成的网络参数所在曲面区域不理想,最后估计落入局部无穷小了。
【 在 Xjt 的大作中提到: 】
: 最简单的Kaggle房价预测题目,我用Ridge随便跑了下,cross validation的mse可以跑到0.135左右
: 而用神经网络跑,针对训练集,mse都在0.16左右,我企图增大模型对训练集过拟合都没法做到降低loss,最终都是收敛到0.16就怎么也不下降了
: 网上能找到的方法都试遍了,什么参数是否正则归一(是或者不是都试了),用Relu或者leak relu,用Adam优化其,调整学习步长,增加网络层数(最多加到20层每层2000个节点)。每次要不是根本loss不收敛,要不就是收敛到局部最优解但mse只有0.16还不如ridge随便跑跑的结果好
: ...................
--
FROM 120.235.21.*
昨天至少重新随机初始化和换各种网络折腾训练了几十次...ft
80%的情况似乎都是落到差不多loss水平的局部最优解并且收敛,20%的情况会梯度爆炸根本不收敛。
【 在 heyuanlie 的大作中提到: 】
: 模型退化了?
: 重新初始化网络训练或者换另一种随机数生成函数对网络初始化再重新训练看看?
: 其实就是可能一开始时随机生成的网络参数所在曲面区域不理想,最后估计落入局部无穷小了。
: ...................
--
修改:Xjt FROM 101.80.249.*
FROM 101.80.249.*
深表同情
【 在 Xjt 的大作中提到: 】
: 昨天至少重新随机初始化和换各种网络折腾训练了几十次...ft
: 80%的情况似乎都是落到差不多loss水平的局部最优解并且收敛,20%的情况会梯度爆炸根本不收敛。
--
FROM 120.235.21.*