我有一些数据,都呈现比较典型的“偏正态分布”(见附件1),数据量>500万。目前我想统计这些数据的平均值,涉及到一个样本过滤方法和置信区间选择的问题。
1. 想请教一下像这样的数据,做有效样本过滤,是采用“标准差法”还是“四分位距”法更合适?
2. 如果采用“标准差法”,由于不是一个正态分布,有没有可能算出来“偏度”或者是其他的衡量“偏斜程度”的参数,用来指导“置信区间”的选择,让统计结果比“四分位距法”更好?
3. 初步了解到有方法可以将“倾斜数据”转换为“正态数据”,这对于我要计算这些数据的平均值来说,是不是一个正确的思路,这个又是怎么做的?
多谢!
--
FROM 223.104.41.*