- 主题:cross-validation
问一个cross validation的问题。
假设是5折 cross validation。k=5.
把样本分割成5份,a1,a2,a3,a4,a5
用其中的每一份ai作为测试集,其他作为训练集。这样模型实际训练5次。
每一次都有一批性能参数。
请问综合这5次循环,最终也有一批性能参数。这最终的性能参数是如何确定的呢?
谢谢!
--
FROM 129.120.103.*
没有最终的性能参数,只有最终的平均性能参数
【 在 MicroSat (to ma to \t&-'mA-(")tO\) 的大作中提到: 】
: 问一个cross validation的问题。
: 假设是5折 cross validation。k=5.
: 把样本分割成5份,a1,a2,a3,a4,a5
: ...................
--
FROM 182.149.108.*
你这个问题,没有良好的统计学基础是解决不了的。
现实的办法是优化一下模型,以及尽量保证样本更大,样本与总体的一致性更强。
【 在 MicroSat (to ma to \t&-'mA-(")tO\) 的大作中提到: 】
: 问一个cross validation的问题。
: 假设是5折 cross validation。k=5.
: 把样本分割成5份,a1,a2,a3,a4,a5
: ...................
--
修改:hellogn FROM 139.211.97.*
FROM 139.211.97.*
原则上是看5次计算后综合到一起的结果。当然,如何将5次运算综合到一起,取决于你的模型。
【 在 MicroSat 的大作中提到: 】
: 问一个cross validation的问题。
: 假设是5折 cross validation。k=5.
: 把样本分割成5份,a1,a2,a3,a4,a5
: ...................
--
修改:laoqi FROM 124.207.151.*
FROM 124.207.151.*
你要明白 cross validation 里这个 validation 意思是啥。
我们知道有个叫验证集的,它通常是用于调优超参数。如果你的数据集太小,验证集拆分的方差较大(每次拆分的验证集分布差异很大),这就使得你用单次拆分调优的超参数不一定是最优的。
【 在 MicroSat 的大作中提到: 】
: 问一个cross validation的问题。
: 假设是5折 cross validation。k=5.
: 把样本分割成5份,a1,a2,a3,a4,a5
: ...................
--
FROM 121.35.102.*
谢谢!一般svm的模型是怎么处理这个5-fold cross validation的?
还有,random forest是如何处理这个5-fold cross validation的?
是简单的把5次的性能进行平均吗? 比如每一次的sensitivity, accuracy等,都进行平均。
【 在 laoqi 的大作中提到: 】
: 原则上是看5次计算后综合到一起的结果。当然,如何将5次运算综合到一起,取决于你的模型。
--
FROM 47.185.45.*
一般来说,不是简单平均,取决于你的模型。这里涉及到你做CV的目的是什么?如果是为了调参,那通常是算出总的目标函数值并求解参数。如果是为了看模型的performance,那加到一起或者做平均倒是都可以。其实,想明白这个问题只要注意一点,我们用CV的原因是不知道数据的真实分布,所以需要通过CV来估计对应的统计量,并进行依据该统计量展开的相关数据处理工作。
【 在 MicroSat 的大作中提到: 】
: 谢谢!一般svm的模型是怎么处理这个5-fold cross validation的?
: 还有,random forest是如何处理这个5-fold cross validation的?
: 是简单的把5次的性能进行平均吗? 比如每一次的sensitivity, accuracy等,都进行平均。
--
FROM 124.207.151.*
首先得明确模型性能关注的点有哪些;
其次,这个分割的份数太少,最好多做几次,比如100次
再次,在这多次循环分割的训练和验证基础上,选择训练集和验证集的性能差异比较接近的那些切分组合,将其中统计效果最显著而性能差异较小的训练结果作为建模结果就行。
【 在 MicroSat 的大作中提到: 】
: 问一个cross validation的问题。
: 假设是5折 cross validation。k=5.
: 把样本分割成5份,a1,a2,a3,a4,a5
: ...................
--
FROM 115.171.222.*