【20210922】【机器/深度学习】K折交叉验证(k-fold cross validation)
一、K折交叉验证详解
1. 原理
交叉验证的核心思想在于对数据集进行多次划分,对多次评估的结果取平均,从而消除单次划分时数据划分不平衡造成的不良影响。它只是一种划分数据集的策略,它可以避免固定划分数据集的局限性、特殊性,一定程度上能够避免模型过拟合(当用交叉验证进行模型评估时,它并不能解决过拟合问题,只能用来评估模型的性能)。
交叉验证方法在小规模数据集上更能体现出优势。
交叉验证是避免过拟合的方法之一,是通过寻找最佳模型的方式来解决过拟合。(而正则化是通过约束参数的范数来解决过拟合)
2. 两大用途
把k折交叉验证的划分策略用于划分训练集和测试集,就可以进行模型评估;
把k折交叉验证的划分测量用于划分训练集和验证集,就可以进行模型选择。
(1)模型选择
交叉验证最关键的作用是进行模型选择,也称为超参数选择。具体过程是:首先在训练集和验证集上对多种模型(超参数)选择进行验证,选出平均误差最小的模型(超参数);选出合适的模型(超参数)之后,可以把训练集和验证集合并起来,在上面重新把模型训练一遍,得到最终模型;然后用测试集测试其泛化能力。
链接请看附件:
--
FROM 59.41.66.*