【 在 aczo 的大作中提到: 】
: 机器学习数据集一般分为训练集和测试集,测试集对模型来说应该是未知的。
: 可实际工作中,也是对着测试集调一些超参数,直到效果好了为止,这样的意义在哪
训练集, 测试集和验证集是这样划分的,
测试集和验证集, 前者是为了应对数据中存在的数据误差, 这种误差来源于数据的不平衡和不平稳,
从而采用的一种数据增强和平稳化手段。 不平衡是说, 有些数据, 比如分十类, 某一两类数据非常
稀少, 从而影响机器学习算法学习到。
而验证集,是为了应对模型误差, 不同超参对应的模型, 可以看成是不同的模型,
这种模型间的差异, 无法通过学习的数据量的增加或者迭代的增加, 而更好的消除。
--
FROM 124.126.3.*