有什么统计指标可以衡量异常值对回归参数R方造成的影响么？

wufaxian

当对两组数据做线性回归，即便他们得出同样的R² ,但是他们的数据形态可能有很大差别。请看下图面两张图。他们很可能拥有相同的R^{2。但是其中第一组数据完全是因为最后一个异常值造成的R}2过大。而第一组数据的R^{2比较大。则是由每个数据造成的。请问有哪种统计指标能有效衡量少数异常值造成的R}2过大的情况？如果有相关的指标，再python当中如何实现？

图1：https://bbs.emath.ac.cn/forum.php?mod=attachment&aid=MTA0Njh8ZTQzYmM0MjZ8MTU5NDM1MzM4MHwxMzY5NHwxNzM0OA%3D%3D&noupdate=yes

图2：https://bbs.emath.ac.cn/forum.php?mod=attachment&aid=MTA0Njd8ZDM0NmEyYTh8MTU5NDM1MzM4MHwxMzY5NHwxNzM0OA%3D%3D&noupdate=yes

henrywangnl

应该通过残差图来看异常值然后剔除

wufaxian

henrywangnl 谢谢你的回复。这的确是个办法。不过这样的数据大于2000组（说的是数据数量，不是样本数量）。我想找到这个参数的目的就是无法逐一看完2000张图。以往一个数字能识别这种包含异常值的影响程度。有了数字才能在程序中进行增删查改。

henrywangnl

wufaxian 那可以看标准误差吧，一般来说标准误差落在[-2, 2]区间外就可以判定成异常值了。R里lm返回的结果里就有，不过Python我就不清楚了。

nan.xiao

按理来说任何情况下都没有用 R-squared 的理由，有「异常值」就更不应该用了，用 MSE/RMSE。

另外，先「剔除异常值」再做回归这种做法，属于用了两次数据，至少在 OLS 里严格来说需要校正。

如果「异常值」是个很大的问题，那直接用稳健回归比较好。

jtcai

同意楼上的方法，另外可以用leverage points的plots和其他的一起结合看