- 主题:问大家个机器学习的问题
机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
--
FROM 111.207.25.*
还有个验证集,是在验证集上调超参数。
【 在 aczo 的大作中提到: 】
: 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
: 可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
--
FROM 61.150.12.*
意义小一些,但比没意义强吧
【 在 aczo 的大作中提到: 】
: 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。: 可实际工作中,也是对着测试集调一些超参数,直到
- 来自 水木社区APP v3.5.7
--
FROM 120.15.36.*
这个不就是指望模型能从已知的数据集中学习到泛化的能力么?
也就是已知数据中有些特征,在未发生的数据中,也是存在的,也满足同样的概率分布之类的
【 在 aczo 的大作中提到: 】
: 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
: 可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
--
FROM 115.45.111.*
有作弊嫌疑,但一般认为测试集与未知样本同分布,马马虎虎可以过得去
【 在 aczo 的大作中提到: 】
: 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
: 可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
--
FROM 221.217.27.*
但问题是,有的超参在测试集上结果会比较好,有的超参结果就不太好,
能直接用结果好的超参在生产环境里么
【 在 newidyu 的大作中提到: 】
: 有作弊嫌疑,但一般认为测试集与未知样本同分布,马马虎虎可以过得去
- 来自 水木说
--
FROM 106.39.151.*
所以一般用cross validation来搞,选超参数
【 在 aczo 的大作中提到: 】
: 但问题是,有的超参在测试集上结果会比较好,有的超参结果就不太好,
: 能直接用结果好的超参在生产环境里么
:
: ...................
--
FROM 221.217.27.*
【 在 aczo 的大作中提到: 】
: 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
: 可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
训练集, 测试集和验证集是这样划分的,
测试集和验证集, 前者是为了应对数据中存在的数据误差, 这种误差来源于数据的不平衡和不平稳,
从而采用的一种数据增强和平稳化手段。 不平衡是说, 有些数据, 比如分十类, 某一两类数据非常
稀少, 从而影响机器学习算法学习到。
而验证集,是为了应对模型误差, 不同超参对应的模型, 可以看成是不同的模型,
这种模型间的差异, 无法通过学习的数据量的增加或者迭代的增加, 而更好的消除。
--
FROM 124.126.3.*