wufaxian 当对两组数据做线性回归,即便他们得出同样的R2 ,但是他们的数据形态可能有很大差别。请看下图面两张图。他们很可能拥有相同的R2。但是其中第一组数据完全是因为最后一个异常值造成的R2过大。而第一组数据的R2比较大。则是由每个数据造成的。请问有哪种统计指标能有效衡量少数异常值造成的R2过大的情况?如果有相关的指标,再python当中如何实现? 图1:https://bbs.emath.ac.cn/forum.php?mod=attachment&aid=MTA0Njh8ZTQzYmM0MjZ8MTU5NDM1MzM4MHwxMzY5NHwxNzM0OA%3D%3D&noupdate=yes 图2:https://bbs.emath.ac.cn/forum.php?mod=attachment&aid=MTA0Njd8ZDM0NmEyYTh8MTU5NDM1MzM4MHwxMzY5NHwxNzM0OA%3D%3D&noupdate=yes
wufaxian henrywangnl 谢谢你的回复。这的确是个办法。不过这样的数据大于2000组(说的是数据数量,不是样本数量)。我想找到这个参数的目的就是无法逐一看完2000张图。以往一个数字能识别这种包含异常值的影响程度。有了数字才能在程序中进行增删查改。
nan.xiao 按理来说任何情况下都没有用 R-squared 的理由,有「异常值」就更不应该用了,用 MSE/RMSE。 另外,先「剔除异常值」再做回归这种做法,属于用了两次数据,至少在 OLS 里严格来说需要校正。 如果「异常值」是个很大的问题,那直接用稳健回归比较好。