另外说说离群值outlier,下面引用百度百科已经讲解得很清楚了。
https://baike.baidu.com/item/%E7%A6%BB%E7%BE%A4%E5%80%BC/311974离群值的产生原因大致有两点:
(1)总体固有变异的极端表现, 这是真实而正常的数据, 只是在这次实验中表现的有些极端,这类离群值与其余观测值属于同一总体。
(2)由于试验条件和实验方法的偶然性, 或观测、 记录、计算时的失误所产生的结果,是一种非正常的、错误的数据,这些数据与其余观测值不属于同一总体
在统计学上也可用线性回归的方法来对离群值进行判断。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法在找到该观察对象进行核实,则只能将该观测值删除。如果数据间无明显的逻辑错误,则可将离群值删除前后各做一次统计分析,若前后结果不矛盾,则该例观测值可予以保留。
离群值处理方法包括:
(1)保留离群值并用于后续数据处理;
(2)在找到实际原因时修正离群值,否则予以保留;
(3)剔除离群值,不追加观察值;
(4)剔除离群值,并追加新的观察值或用适宜的插补值代替。
【 在 h2929 (^_^) 的大作中提到: 】
: 吻合率高作弊的可能性高 这个没错
: 但是吻合率高出三个希格玛不能证明统计上作弊 只能证明统计上是个outlier
: outlier不代表数据有错。
: ...................
--
FROM 163.114.132.*